極客號(Daydx.com)9月7日 消息:近日,阿布扎比的全球領(lǐng)先技術(shù)研究中心 TII 發(fā)布了一款世界頂級開源大模型 ——Falcon180B。這款模型在3.5萬億 token 的訓(xùn)練下,擁有1800億參數(shù),性能超過了之前的開源模型 Llama2,甚至接近了谷歌的 GPT-4。Falcon180B 在各項任務(wù)中表現(xiàn)出色,被認(rèn)為是目前最好的開源大模型之一。
Falcon180B 的訓(xùn)練過程使用了亞馬遜云機器學(xué)習(xí)平臺,并在多達(dá)4096個 GPU 上完成了訓(xùn)練,總共進(jìn)行了大約7,000,000個 GPU 計算時。訓(xùn)練數(shù)據(jù)主要來自于 RefinedWe 數(shù)據(jù)集,其中包括對話、技術(shù)論文和一小部分代碼等多種數(shù)據(jù)。
項目地址:https://huggingface.co/tiiuae/falcon-180B-chat
Falcon180B 在多個基準(zhǔn)測試中都表現(xiàn)出色,超過了 Llama2和 GPT-3.5。在 Hugging Face 開源大模型榜單上,F(xiàn)alcon180B 的評分也超過了 Llama2,成為當(dāng)前評分最高的開放式大模型。
除了基礎(chǔ)模型,研究人員還發(fā)布了聊天對話模型 Falcon-180B-Chat,該模型在對話和指令數(shù)據(jù)集上進(jìn)行了微調(diào),可以進(jìn)行實時對話的演示。
雖然 Falcon180B 的性能引起了廣泛關(guān)注,但也有一些人對其質(zhì)疑。英偉達(dá)高級科學(xué)家 Jim Fan 指出,F(xiàn)alcon-180B 的訓(xùn)練數(shù)據(jù)中代碼只占了5%,而代碼是提高模型推理能力的重要數(shù)據(jù),因此對于沒有代碼能力的模型,無法聲稱優(yōu)于 GPT-3.5或接近 GPT-4。
總的來說,F(xiàn)alcon180B 作為世界頂級開源大模型,擁有強大的性能和參數(shù)規(guī)模,在各項任務(wù)中表現(xiàn)出色。然而,對于其在代碼方面的不足,還需要進(jìn)一步的探討和研究。