極客號(hào)(Daydx.com)11月15日 消息:近期,微軟Azure AI發(fā)布了MM-Vid,這是一項(xiàng)結(jié)合GPT-4V與專用工具的創(chuàng)新,致力于解讀長視頻并為視障人士提供更好的體驗(yàn)。
目前,人工智能在長視頻理解領(lǐng)域所面臨的復(fù)雜挑戰(zhàn),包括分析多個(gè)片段、提取不同信息源、實(shí)時(shí)處理動(dòng)態(tài)環(huán)境等。而MM-Vid的工作流程,包括多模態(tài)預(yù)處理、外部知識(shí)收集、視頻片段描述生成和腳本生成等四個(gè)關(guān)鍵模塊。通過GPT-4V,MM-Vid能夠生成連貫的腳本,為后續(xù)任務(wù)提供全面的視頻理解。
項(xiàng)目地址:https://multimodal-vid.github.io/
實(shí)驗(yàn)證明MM-Vid在多個(gè)任務(wù)上都取得了顯著的成果,包括有根據(jù)的問答、多模態(tài)推理、長視頻理解、多視頻情景分析等。特別是在人物識(shí)別和說話人識(shí)別方面,通過采用視覺prompt設(shè)計(jì),MM-Vid展現(xiàn)出更高的質(zhì)量和準(zhǔn)確性。
而MM-Vid在交互式環(huán)境中的應(yīng)用,如具身智能體和玩視頻游戲,證明其在持續(xù)接收流視頻幀輸入方面的有效性。
綜合而言,微軟的MM-Vid在大型多模態(tài)模型領(lǐng)域取得了顯著進(jìn)展,成功地將GPT-4V與專用工具集成,為視頻理解提供了更強(qiáng)大的解決方案,不僅滿足了常規(guī)視頻理解的需求,還為視障人士提供了更豐富的體驗(yàn)。這一創(chuàng)新有望推動(dòng)視覺領(lǐng)域的發(fā)展,使得語言模型在多模態(tài)環(huán)境下的應(yīng)用更加廣泛。