在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    微軟用GPT-4V解讀長視頻 MM-Vid能看懂電影還能講給盲人聽

    極客號(hào)(Daydx.com)11月15日 消息:近期,微軟Azure AI發(fā)布了MM-Vid,這是一項(xiàng)結(jié)合GPT-4V與專用工具的創(chuàng)新,致力于解讀長視頻并為視障人士提供更好的體驗(yàn)。

    目前,人工智能在長視頻理解領(lǐng)域所面臨的復(fù)雜挑戰(zhàn),包括分析多個(gè)片段、提取不同信息源、實(shí)時(shí)處理動(dòng)態(tài)環(huán)境等。而MM-Vid的工作流程,包括多模態(tài)預(yù)處理、外部知識(shí)收集、視頻片段描述生成和腳本生成等四個(gè)關(guān)鍵模塊。通過GPT-4V,MM-Vid能夠生成連貫的腳本,為后續(xù)任務(wù)提供全面的視頻理解。

    微軟用GPT-4V解讀長視頻 MM-Vid能看懂電影還能講給盲人聽

    項(xiàng)目地址:https://multimodal-vid.github.io/

    實(shí)驗(yàn)證明MM-Vid在多個(gè)任務(wù)上都取得了顯著的成果,包括有根據(jù)的問答、多模態(tài)推理、長視頻理解、多視頻情景分析等。特別是在人物識(shí)別和說話人識(shí)別方面,通過采用視覺prompt設(shè)計(jì),MM-Vid展現(xiàn)出更高的質(zhì)量和準(zhǔn)確性。

    而MM-Vid在交互式環(huán)境中的應(yīng)用,如具身智能體和玩視頻游戲,證明其在持續(xù)接收流視頻幀輸入方面的有效性。

    綜合而言,微軟的MM-Vid在大型多模態(tài)模型領(lǐng)域取得了顯著進(jìn)展,成功地將GPT-4V與專用工具集成,為視頻理解提供了更強(qiáng)大的解決方案,不僅滿足了常規(guī)視頻理解的需求,還為視障人士提供了更豐富的體驗(yàn)。這一創(chuàng)新有望推動(dòng)視覺領(lǐng)域的發(fā)展,使得語言模型在多模態(tài)環(huán)境下的應(yīng)用更加廣泛。

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年11月15日 18:19
    下一篇 2023年11月15日 18:19

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息