極客號(Daydx.com)9月26日 消息:近日,Google旗下的人工智能子公司DeepMind發(fā)布的一項(xiàng)研究表明,大型語言模型(LLMs)除了在文本數(shù)據(jù)處理方面表現(xiàn)出色之外,還具備出色的圖像和音頻數(shù)據(jù)壓縮能力。這一發(fā)現(xiàn)為重新審視LLMs的潛力提供了新的角度。
研究的核心觀點(diǎn)是將LLMs視為強(qiáng)大的數(shù)據(jù)壓縮器,而非僅僅是文本生成模型。研究作者提出“通過壓縮的角度來看待預(yù)測問題”,這為我們理解這些模型的能力帶來了全新的視角。
在研究中,DeepMind的研究人員對LLMs進(jìn)行了一些微小的修改,使其能夠執(zhí)行算術(shù)編碼,這是一種無損壓縮算法。值得注意的是,LLMs的訓(xùn)練過程是基于對文本序列的極大概率和交叉熵的最小化,這使得它們能夠生成概率分布,與數(shù)據(jù)壓縮之間存在一對一的等價關(guān)系。這種無損壓縮算法,如gzip,可以從壓縮的數(shù)據(jù)完美重構(gòu)原始數(shù)據(jù),確保不丟失任何信息。
研究人員對LLMs在文本、圖像和音頻數(shù)據(jù)上的壓縮能力進(jìn)行了評估。不出所料,LLMs在文本壓縮方面表現(xiàn)出色。例如,Chinchilla模型(擁有700億參數(shù))將數(shù)據(jù)壓縮到原始大小的8.3%,遠(yuǎn)遠(yuǎn)超過gzip和LZMA2,它們分別只能實(shí)現(xiàn)32.3%和23%的壓縮率。
然而,更引人注目的發(fā)現(xiàn)是,盡管LLMs主要在文本數(shù)據(jù)上進(jìn)行訓(xùn)練,但它們在圖像和音頻數(shù)據(jù)的壓縮方面也取得了顯著的成功,超過了領(lǐng)域?qū)S玫膲嚎s算法,如PNG和FLAC。
盡管取得了令人鼓舞的結(jié)果,但與現(xiàn)有的壓縮模型相比,LLMs在實(shí)際數(shù)據(jù)壓縮中并不實(shí)用。這是因?yàn)長LMs的體積較大,運(yùn)行速度較慢。例如,研究人員發(fā)現(xiàn),gzip可以在CPU上在不到一分鐘內(nèi)將1GB的文本數(shù)據(jù)壓縮,而具有320萬參數(shù)的LLM需要一個小時才能完成相同數(shù)量數(shù)據(jù)的壓縮。
研究還發(fā)現(xiàn),LLMs的規(guī)模對其性能有重要影響。雖然一直以來,人們普遍認(rèn)為越大的LLMs性能越好,但研究人員發(fā)現(xiàn),對于較小的數(shù)據(jù)集,更大的模型并不一定更好。這表明LLMs的性能與數(shù)據(jù)集的大小有關(guān),壓縮率可以作為評估模型對數(shù)據(jù)集信息學(xué)習(xí)的指標(biāo)。