魚(yú)羊 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
說(shuō)出來(lái)你可能不信,有一只AI剛剛被證明,處理語(yǔ)音的方式跟大腦謎之相似。
甚至在結(jié)構(gòu)上都能相互對(duì)應(yīng)——
科學(xué)家們?cè)贏I身上直接定位出了“視覺(jué)皮層”。
這項(xiàng)來(lái)自Meta AI等機(jī)構(gòu)的研究一經(jīng)po出,立馬在社交媒體上炸開(kāi)了鍋。一大波神經(jīng)科學(xué)家和AI研究者前往圍觀。
LeCun稱(chēng)贊這是“出色的工作”:自監(jiān)督Transformer分層活動(dòng)與人類(lèi)聽(tīng)覺(jué)皮層活動(dòng)之間,確實(shí)密切相關(guān)。
還有網(wǎng)友趁機(jī)調(diào)侃:Sorry馬庫(kù)斯,但AGI真的快要來(lái)了。
不過(guò),研究也引發(fā)了一些學(xué)者的好奇。
例如麥吉爾大學(xué)神經(jīng)科學(xué)博士Patrick Mineault提出疑問(wèn):
我們發(fā)表在NeurIPS的一篇論文中,也嘗試過(guò)將fMRI數(shù)據(jù)和模型聯(lián)系起來(lái),但當(dāng)時(shí)并不覺(jué)得這倆有啥關(guān)系。
所以,這到底是一項(xiàng)怎樣的研究,它又是如何得出“這只AI干起活來(lái)像大腦”的結(jié)論的?
AI學(xué)會(huì)像人腦一樣工作
簡(jiǎn)單來(lái)說(shuō),在這項(xiàng)研究中,研究人員聚焦語(yǔ)音處理問(wèn)題,將自監(jiān)督模型Wav2Vec 2.0同412名志愿者的大腦活動(dòng)進(jìn)行了比較。
這412名志愿者中,有351人說(shuō)英語(yǔ),28人說(shuō)法語(yǔ),33人說(shuō)中文。研究人員給他們聽(tīng)了大約1個(gè)小時(shí)的有聲書(shū),并在此過(guò)程中用fMRI對(duì)他們的大腦活動(dòng)進(jìn)行了記錄。
模型這邊,研究人員則用超過(guò)600小時(shí)的無(wú)標(biāo)簽語(yǔ)音來(lái)訓(xùn)練Wav2Vec 2.0。
對(duì)應(yīng)志愿者的母語(yǔ),模型也分為英語(yǔ)、法語(yǔ)、中文三款,另外還有一款是用非語(yǔ)音聲學(xué)場(chǎng)景數(shù)據(jù)集訓(xùn)練的。
而后這些模型也聽(tīng)了聽(tīng)志愿者同款有聲書(shū)。研究人員從中提取出了模型的激活。
相關(guān)性的評(píng)價(jià)標(biāo)準(zhǔn),遵照這個(gè)公式:
其中,X為模型激活,Y為人類(lèi)大腦活動(dòng),W為標(biāo)準(zhǔn)編碼模型。
從結(jié)果來(lái)看,自監(jiān)督學(xué)習(xí)確實(shí)讓W(xué)av2Vec 2.0產(chǎn)生了類(lèi)似大腦的語(yǔ)音表征。
從上圖中可以看到,在初級(jí)和次級(jí)聽(tīng)覺(jué)皮層,AI明顯預(yù)測(cè)到了幾乎所有皮層區(qū)域的大腦活動(dòng)。
研究人員還進(jìn)一步發(fā)現(xiàn)了AI的“聽(tīng)覺(jué)皮層”、“前額葉皮層”到底長(zhǎng)在哪一層。
圖中顯示,聽(tīng)覺(jué)皮層與Transformer的第一層(藍(lán)色)最吻合,而前額葉皮層則與Transformer的最深一層(紅色)最吻合。
此外,研究人員量化分析了人類(lèi)感知母語(yǔ)和非母語(yǔ)音素的能力差異,并與Wav2Vec 2.0模型進(jìn)行對(duì)比。
他們發(fā)現(xiàn),AI也像人類(lèi)一樣,對(duì)“母語(yǔ)”有更強(qiáng)的辨別能力,比如,法語(yǔ)模型就比英語(yǔ)模型更容易感知來(lái)自法語(yǔ)的刺激。
上述結(jié)果證明了,600小時(shí)的自監(jiān)督學(xué)習(xí),就足以讓W(xué)av2Vec 2.0學(xué)習(xí)到語(yǔ)言的特定表征——這與嬰兒在學(xué)說(shuō)話的過(guò)程中接觸到的“數(shù)據(jù)量”相當(dāng)。
要知道,之前DeepSpeech2論文認(rèn)為,至少需要10000小時(shí)的語(yǔ)音數(shù)據(jù)(還得是標(biāo)記的那種),才能構(gòu)建一套不錯(cuò)的語(yǔ)音轉(zhuǎn)文字(STT)系統(tǒng)。
再次引發(fā)神經(jīng)科學(xué)和AI界討論
對(duì)于這項(xiàng)研究,有學(xué)者認(rèn)為,它確實(shí)做出了一些新突破。
例如,來(lái)自谷歌大腦的Jesse Engel稱(chēng),這項(xiàng)研究將可視化濾波器提升到了一個(gè)新的層次。
現(xiàn)在,不僅能看到它們?cè)凇跋袼乜臻g”里長(zhǎng)啥樣,連它們?cè)凇邦?lèi)腦空間”中的模樣也能模擬出來(lái)了:
又例如,前MILA和谷歌研究員Joseph Viviano認(rèn)為,這個(gè)研究還證明了fMRI中的靜息態(tài)(resting-state)成像數(shù)據(jù)是有意義的。
但在一片討論中,也出現(xiàn)了一些質(zhì)疑的聲音。
例如,神經(jīng)科學(xué)博士Patrick Mineault除了指出自己做過(guò)相似研究但沒(méi)得出結(jié)論外,也給出了自己的一些質(zhì)疑。
他認(rèn)為,這篇研究并沒(méi)有真正證明它測(cè)量的是“語(yǔ)音處理”的過(guò)程。
相比于人說(shuō)話的速度,fMRI測(cè)量信號(hào)的速度其實(shí)非常慢,因此貿(mào)然得出“Wav2vec 2.0學(xué)習(xí)到了大腦的行為”的結(jié)論是不科學(xué)的。
當(dāng)然,Patrick Mineault表示自己并非否認(rèn)研究的觀點(diǎn),他自己也是“作者的粉絲之一”,但這項(xiàng)研究應(yīng)該給出一些更有說(shuō)服力的數(shù)據(jù)。
此外也有網(wǎng)友認(rèn)為,Wav2vec和人類(lèi)大腦的輸入也不盡相同,一個(gè)是經(jīng)過(guò)處理后的波形,但另一個(gè)則是原始波形。
對(duì)此,作者之一、Meta AI研究員Jean-Rémi King總結(jié):
模擬人類(lèi)水平的智能,確實(shí)還有很長(zhǎng)的路要走。但至少現(xiàn)在來(lái)看,我們或許走在了一條正確的道路上。
你認(rèn)為呢?
論文地址:https://arxiv.org/abs/2206.01685
參考鏈接:[1]https://twitter.com/patrickmineault/status/1533888345683767297[2]https://twitter.com/JeanRemiKing/status/1533720262344073218[3]https://www.reddit.com/r/singularity/comments/v6bqx8/toward_a_realistic_model_of_speech_processing_in/[4]https://twitter.com/ylecun/status/1533792866232934400
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)