極客號(hào)(Daydx.com)7月5日 消息:最近,麻省理工學(xué)院(MIT)和微軟的研究學(xué)者發(fā)現(xiàn),GPT-4在自修復(fù)方面表現(xiàn)出了有效能力,而GPT-3.5則沒(méi)有。此外,GPT-4還能夠?qū)PT-3.5生成的代碼提供反饋。
大型語(yǔ)言模型(LLM)已經(jīng)被證明可以從自然語(yǔ)言中生成代碼片段,但在應(yīng)對(duì)復(fù)雜的編碼挑戰(zhàn),例如專業(yè)競(jìng)賽和軟件工程專業(yè)面試時(shí),仍然面臨巨大挑戰(zhàn)。最近的研究試圖通過(guò)自修復(fù)來(lái)提高模型的編碼性能,自修復(fù)是指模型反思并糾正自身代碼中的錯(cuò)誤。
論文地址:https://arxiv.org/pdf/2306.09896.pdf
從本研究的實(shí)驗(yàn)中,研究者得出以下發(fā)現(xiàn):
考慮到檢查和修復(fù)的成本,只有GPT-4的自修復(fù)能力能夠提供性能收益;對(duì)于GPT-3.5,在所有配置下,修復(fù)的通過(guò)率低于或等于基線模型或無(wú)修復(fù)方法的通過(guò)率。
即使對(duì)于GPT-4,性能提升也是適度的(從66%提升到71%的通過(guò)率),而且取決于初始程序是否具有足夠的多樣性。實(shí)驗(yàn)的預(yù)算是使用7000個(gè)標(biāo)記,約45個(gè)獨(dú)立同分布(i.i.d.)的GPT-4樣本。
使用GPT-4生成的反饋替代GPT-3.5對(duì)錯(cuò)誤的解釋,可以獲得更好的自修復(fù)性能,甚至超過(guò)了基線的無(wú)修復(fù)GPT-3.5方法(從50%提升到使用7000個(gè)標(biāo)記時(shí)的54%)。
使用人類的解釋代替GPT-4自身的解釋可以顯著改善修復(fù)結(jié)果,從而使通過(guò)測(cè)試的修復(fù)程序數(shù)量增加57%。
愛(ài)丁堡大學(xué)的博士生符堯表示:“只有GPT-4具備自我改進(jìn)的能力,而較弱的模型則沒(méi)有,這一發(fā)現(xiàn)非常有趣,表明大型模型可能具有一種新型的涌現(xiàn)能力,即通過(guò)改進(jìn)自然語(yǔ)言反饋來(lái)實(shí)現(xiàn),這種能力可能只存在于模型足夠成熟(大而整齊)的情況下。類似的能力在論文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及?!?/p>