學習英語并不容易,許多學生都深有體會。但當學生是一臺計算機時,有一種方法表現(xiàn)出奇地出色:只需將大量來自互聯(lián)網的文本輸入到一個名為神經網絡的巨大數(shù)學模型中。
這就是生成式大語言模型(如 OpenAI 的 ChatGPT)的工作原理,這些模型能夠在各種主題上進行連貫(盡管不總是真實)的對話,令研究人員和公眾在過去的一年中感到驚訝。
但這種方法也有其缺點。首先,將大量文本檔案轉化為最先進的語言模型所需的「訓練」過程既昂貴又耗時。其次,即使是訓練大型語言模型的人們也很難理解它們的內部工作原理;這反過來又使得難以預測它們可能出現(xiàn)的許多問題。
面對這些困難,一些研究人員選擇對較小的數(shù)據(jù)集上的較小模型進行訓練,然后研究它們的行為。布朗大學的語言模型研究員 Ellie Pavlick 表示:「這就像測序果蠅基因組與測序人類基因組一樣?!?/p>
現(xiàn)在,在最近發(fā)布在科學預印本服務 arxiv.org 上的一篇論文中,兩名微軟研究人員介紹了一種訓練微小語言模型的新方法:用兒童故事來訓練它們。
機器學習研究人員已經接受了這一教訓。驅動 ChatGPT 界面的大型語言模型 GPT-3.5 擁有近 2000 億個參數(shù),它是在包含數(shù)千億個詞匯的數(shù)據(jù)集上訓練的。(OpenAI 尚未公布其繼任者 GPT-4 的相應數(shù)據(jù)。)訓練如此大型的模型通常需要至少 1000 個并行運行數(shù)周的專用處理器(稱為 GPU)。只有少數(shù)公司能夠調集必要的資源,更不用說訓練和比較不同模型了。
這兩名研究人員展示了,與今天的最先進系統(tǒng)相比,比這些系統(tǒng)小數(shù)千倍的語言模型在這種方式下能夠迅速學會講述一致和符合語法的故事。他們的研究結果暗示了可能有助于訓練更大型模型并理解其行為的新研究方向。