最近這段時(shí)間,meta可謂是成為了海外互聯(lián)網(wǎng)行業(yè)的焦點(diǎn),其創(chuàng)始人扎克伯格一邊與馬斯克約架,一邊僅用5天收獲上億用戶的Threads成功奇襲了推特。近日,此前本來(lái)在AI大模型戰(zhàn)局中扮演小透明角色的meta,突然又搞出了一件大事。
就在北京時(shí)間7月19日,meta方面在微軟的Inspire合作伙伴大會(huì)上宣布,將與包括微軟在內(nèi)的主要云計(jì)算服務(wù)提供商合作,推出新一代開源大模型Llama2,并將該模型免費(fèi)開放給商業(yè)和研究機(jī)構(gòu)使用。
根據(jù)meta方面的說(shuō)法,在這一項(xiàng)目中,他們承擔(dān)了大模型訓(xùn)練的成本,而包括微軟、亞馬遜在內(nèi)的云計(jì)算服務(wù)提供商將托管這款大模型,并提供運(yùn)行其所需的算力。對(duì)此,meta生成式AI事業(yè)群副總裁Ahmad Al Dahle表示,meta方面之所以迅速推出Llama2,是因?yàn)榍按a(chǎn)品Llama的受歡迎程度出乎預(yù)料,他們收到了超過(guò)10萬(wàn)個(gè)關(guān)于Llama的申請(qǐng)。
彼時(shí)meta給Llama的身份是開源研究工具,只提供非商業(yè)化機(jī)構(gòu)使用,如果不是這款大模型意外在4chan上泄露,很有可能就默默無(wú)聞了。如今回過(guò)頭來(lái)看,Llama的泄露很有可能是meta有意而為之,并借此來(lái)試探社區(qū)對(duì)于開源大模型的態(tài)度,而在得到了社區(qū)身體力行的支持后,Llama2也就很快誕生了。
值得一提的是,Llama2并不是meta的趕工之作,如果他們沒有弄虛作假的話,其本身的性能就相當(dāng)出世。根據(jù)meta方面公布的數(shù)據(jù)顯示,Llama2相較于上一代訓(xùn)練數(shù)據(jù)提升了40%,上下文長(zhǎng)度也翻倍,并采用了分組查詢注意力機(jī)制。在官方給出的測(cè)試結(jié)果中表明,Llama2在mmlu、agieval等多個(gè)權(quán)威大模型評(píng)測(cè)基準(zhǔn)中,關(guān)于推理、編碼、知識(shí)測(cè)試等方面的表現(xiàn)都優(yōu)于其他開源模型,甚至在某些場(chǎng)景下有著接近GPT-3.5的水準(zhǔn)。
不過(guò)性能或許并非外界對(duì)于Llama2的到來(lái)感到歡欣鼓舞的關(guān)鍵,meta決定其可免費(fèi)用于商業(yè)用途,無(wú)疑才是大家喜出望外的原因。為了實(shí)現(xiàn)可控的商業(yè)化,meta方面已經(jīng)組織自己的員工和第三方圍繞Llama2進(jìn)行了Red Team測(cè)試,避免該模型產(chǎn)出有害內(nèi)容,并為開發(fā)者制定了使用指南和守則。
事實(shí)上,meta的Llama系列大受業(yè)界歡迎的原因很簡(jiǎn)單,因?yàn)檫@是一個(gè)少有的開源AI大模型。但受到開源協(xié)議的限制,基于該模型衍生的產(chǎn)品都無(wú)法商業(yè)化,直到Llama2的出現(xiàn)給了整個(gè)業(yè)界一個(gè)“站在巨人肩膀上”的機(jī)會(huì)。
至于說(shuō)為何meta會(huì)選擇開源Llama2,而不是像OpenAI的ChatGPT、谷歌的Bard一般敝帚自珍,扎克伯格是這樣說(shuō)的,“meta有著悠久的開源歷史,開源推動(dòng)創(chuàng)新,它讓更多開發(fā)者能夠使用新技術(shù)進(jìn)行開發(fā),同時(shí)提高了技術(shù)的安全性。我們相信如果生態(tài)系統(tǒng)更開放將帶來(lái)更多進(jìn)步,這就是我們開源Llama2的原因。”
要知道截至目前為止,無(wú)論海外市場(chǎng)的OpenAI、微軟、谷歌,還是國(guó)內(nèi)的百度、阿里、360,在AI大模型領(lǐng)域都采用的是“閉門造車”的策略。這也是為什么大模型到底是不是創(chuàng)業(yè)的機(jī)會(huì),會(huì)在創(chuàng)業(yè)者和投資人之間產(chǎn)生分歧的關(guān)鍵。
事實(shí)上,大語(yǔ)言模型是“力大磚飛”的結(jié)果,在OpenAI的ChatGPT一鳴驚人之前,業(yè)界更青睞的是谷歌的Transformer模型,追求的是如何設(shè)計(jì)出更小、更快,但更準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)。而ChatGPT的成功,就成功在它提出了一個(gè)新的思路,那就是加大參數(shù)、加高算力的大模型也是一條路,并且真的讓其產(chǎn)生了智能。
但問(wèn)題在于,如果單純從技術(shù)層面出發(fā),大模型的技術(shù)壁壘并非深不可測(cè),否則即便OpenAI對(duì)自己基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)秘而不宣,也沒能阻擋不了百度的文心一言、阿里的通義千問(wèn)、谷歌的Bard等一眾大模型的出現(xiàn)。甚至在很短的時(shí)間里,國(guó)內(nèi)市場(chǎng)的“百模大戰(zhàn)”就正式開打,這也代表著這個(gè)領(lǐng)域的先發(fā)優(yōu)勢(shì)可能幾乎不值一提。
只可惜,大模型的技術(shù)壁壘不高或許僅僅是針對(duì)大型互聯(lián)網(wǎng)廠商適配,但對(duì)于創(chuàng)業(yè)者而言,需要高算力、大數(shù)據(jù)和強(qiáng)算法,并且消耗海量資源的搭建通用大模型幾乎只能是巨頭們的游戲,大多數(shù)創(chuàng)業(yè)者有心無(wú)力。如果沒有meta開源的Llama,創(chuàng)業(yè)者就只能加入OpenAI的生態(tài),并使用后者的付費(fèi)API來(lái)打造自己的產(chǎn)品,這就等于是要依附于OpenAI。所以一旦有的選,大家顯然并不希望將身家性命交付他人之手。
而meta此前泄露的LLama給了資源有限的創(chuàng)業(yè)者施展拳腳的舞臺(tái),基于LLama模型以及LoRA訓(xùn)練技術(shù),開源社區(qū)也打造出了ChatLLaMa、Koala等模型。利用社區(qū)的力量群策群力最終實(shí)現(xiàn)極低成本下的高速迭代,這就是開源大模型的優(yōu)勢(shì)。就像有谷歌員工坦言的那般,“如果存在一個(gè)沒有使用限制的免費(fèi)高質(zhì)量替代品,誰(shuí)又還會(huì)為帶有使用限制的產(chǎn)品買單呢?”
以閉源自研產(chǎn)品為核心,用API或插件的形式向開發(fā)者賦能,這是OpenAI、百度的道路,也是當(dāng)年蘋果在iOS上所采取的策略,但入局大模型領(lǐng)域慢人一步的meta已經(jīng)失去了先機(jī),因此選擇開源就是試圖復(fù)刻Android當(dāng)年的成功路徑,用開放來(lái)吸引更多人來(lái)共建生態(tài)。以史為鑒,可知興替,這點(diǎn)幾乎放之四海而皆準(zhǔn)。