極客號(hào)(Daydx.com)10月25日 消息:Google Research和Google DeepMind日前發(fā)布了名為PaLI-3的新一代視覺(jué)語(yǔ)言模型(VLM),盡管僅擁有50億參數(shù),但其性能令人矚目。與體積大10倍的競(jìng)爭(zhēng)對(duì)手相比,PaLI-3在多模態(tài)測(cè)試中表現(xiàn)出色,能夠回答關(guān)于圖像的問(wèn)題、描述視頻、識(shí)別對(duì)象和讀取圖像上的文本。
通常情況下,VLM由預(yù)訓(xùn)練的圖像模型和語(yǔ)言模型組成,后者已經(jīng)學(xué)會(huì)將文本與圖像相關(guān)聯(lián)。PaLI-3的架構(gòu)遵循了其前身的先例,包括一個(gè)將圖像編碼為標(biāo)記的視覺(jué)轉(zhuǎn)換器,這些標(biāo)記連同文本輸入一起傳遞給一個(gè)編碼器-解碼器轉(zhuǎn)換器,產(chǎn)生文本輸出。
Google此前已經(jīng)展示,高度擴(kuò)展的視覺(jué)轉(zhuǎn)換器并不一定會(huì)對(duì)僅涉及圖像的任務(wù)(如ImageNet)產(chǎn)生更好的結(jié)果,但對(duì)于回答有關(guān)圖像的問(wèn)題等多模態(tài)任務(wù),它可以取得顯著的性能提升。隨著PaLI-X的推出,Google將模型規(guī)模擴(kuò)大到了550億參數(shù)。
與PaLI-X相比,PaLI-3采用了一種新的訓(xùn)練方法,使用了對(duì)比預(yù)訓(xùn)練的視覺(jué)轉(zhuǎn)換器(SigLIP),類似于CLIP。該視覺(jué)轉(zhuǎn)換器僅擁有20億參數(shù),與語(yǔ)言模型一起,PaLI-3僅有50億參數(shù)。
這種小型模型更適合培訓(xùn)和部署,對(duì)環(huán)境更友好,并允許更快的模型設(shè)計(jì)研究周期。令人印象深刻的是,盡管規(guī)模相對(duì)較小,PaLI-3在超過(guò)10個(gè)圖像轉(zhuǎn)語(yǔ)音測(cè)試中與今天的最佳VLM表現(xiàn)相媲美,而且在沒(méi)有經(jīng)過(guò)視頻數(shù)據(jù)訓(xùn)練的情況下,在需要回答關(guān)于視頻的問(wèn)題的測(cè)試中也取得了新的最佳成績(jī)。
雖然小型模型具有巨大的潛力,但模型領(lǐng)域的趨勢(shì)似乎將朝著更大型模型的方向發(fā)展。不過(guò),正是PaLI-3在其體積相對(duì)較小的情況下表現(xiàn)出色,彰顯了SigLIP方法在未經(jīng)結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)上進(jìn)行視覺(jué)轉(zhuǎn)換器訓(xùn)練的潛力。考慮到這種未經(jīng)結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)的可用性,Google可能很快會(huì)推出更大版本的PaLI-3。
該研究團(tuán)隊(duì)表示,PaLI-3的性能表現(xiàn),盡管僅有50億參數(shù),重新激發(fā)了對(duì)復(fù)雜VLM核心組成部分的研究興趣,并有望推動(dòng)新一代大規(guī)模VLM的發(fā)展。
項(xiàng)目網(wǎng)址:https://github.com/kyegomez/PALI3