極客號(hào)(Xqh8.com) 12月18日 消息:近日,瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)與蘋(píng)果聯(lián)手推出了一項(xiàng)名為”Massively Multimodal Masked Modeling”(4M)的人工智能框架,旨在解決訓(xùn)練跨多模態(tài)視覺(jué)基礎(chǔ)模型的挑戰(zhàn)。盡管在自然語(yǔ)言處理領(lǐng)域,訓(xùn)練大型語(yǔ)言模型(LLMs)已經(jīng)取得了顯著成功,但在視覺(jué)領(lǐng)域,仍需要構(gòu)建能夠靈活處理多種輸入模態(tài)和輸出任務(wù)的模型。
4M框架采用了一種獨(dú)特的策略,通過(guò)訓(xùn)練單一的Transformer編碼器-解碼器,具備多模態(tài)的掩碼建模目標(biāo)。”Massively Multimodal Masked Modeling”強(qiáng)調(diào)了該方法在擴(kuò)展到多種各異模態(tài)方面的能力。這一方法融合了掩碼建模和多模態(tài)學(xué)習(xí)的最佳特性,包括強(qiáng)大的跨模態(tài)預(yù)測(cè)編碼能力、共享場(chǎng)景表示以及通過(guò)迭代抽樣實(shí)現(xiàn)生成任務(wù)的能力。
不僅如此,4M在保持高效性的同時(shí),通過(guò)模態(tài)特定的標(biāo)記器將各種格式的輸入模態(tài)轉(zhuǎn)換為離散標(biāo)記的集合或序列,使得單一的Transformer可以同時(shí)處理文本、邊界框、圖片或神經(jīng)網(wǎng)絡(luò)特征等多種輸入模態(tài),實(shí)現(xiàn)它們的統(tǒng)一表示領(lǐng)域。
此外,4M采用了輸入和目標(biāo)掩碼的方式,即從所有模態(tài)隨機(jī)選擇一小部分標(biāo)記作為模型輸入,另一小部分作為目標(biāo)。通過(guò)將輸入和目標(biāo)標(biāo)記的數(shù)量與模態(tài)數(shù)量解耦,防止了隨著模態(tài)數(shù)量增加而導(dǎo)致的計(jì)算成本快速上升。通過(guò)利用CC12M和其他可用的單模態(tài)或文本-圖片對(duì)數(shù)據(jù)集,使用強(qiáng)大的偽標(biāo)簽網(wǎng)絡(luò)創(chuàng)建模態(tài)對(duì)齊的綁定數(shù)據(jù),4M在不需要多模態(tài)/多任務(wù)注釋的情況下,可以在不同且大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
研究人員發(fā)現(xiàn),4M模型不僅在多個(gè)重要的視覺(jué)任務(wù)上表現(xiàn)出色,而且可以進(jìn)行精細(xì)調(diào)整以在未來(lái)的任務(wù)和輸入模態(tài)上取得顯著成果。為了訓(xùn)練可導(dǎo)向的生成模型,可以根據(jù)任何模態(tài)進(jìn)行條件化,必須使用多模態(tài)的掩碼建模目標(biāo)。通過(guò)對(duì)4M性能影響的深入消融分析,結(jié)合該方法的簡(jiǎn)便性和通用性,研究人員認(rèn)為4M在許多視覺(jué)任務(wù)和未來(lái)發(fā)展中具有巨大的潛力。
項(xiàng)目體驗(yàn)網(wǎng)址:https://4m.epfl.ch/
論文網(wǎng)址:https://arxiv.org/abs/2312.06647