在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<abbr id="mxkwq"><pre id="mxkwq"><strong id="mxkwq"></strong></pre></abbr>

<object id="mxkwq"></object>

GPT-4「變笨」被斯坦福實(shí)錘：短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍！OpenAI也急了：已開始調(diào)查

用戶投稿 ? 2023年7月22日 12:19 ? 熱點(diǎn)

GPT-4變笨，實(shí)錘了???

來自斯坦福大學(xué)和UC伯克利大學(xué)的一篇最新論文顯示:

6月的GPT-4在一些任務(wù)上的表現(xiàn)客觀上就是比3月的更差。

比如他們用同樣500道「判斷給定整數(shù)是否為質(zhì)數(shù)」的問題來測(cè)這兩個(gè)版本，發(fā)現(xiàn)3月份的GPT-4答對(duì)了488個(gè)，而6月只對(duì)了12個(gè)……

成功率直接從97.6%下降到2.4%!

而當(dāng)研究員通過經(jīng)典的「Let’s think step by step」辦法來引導(dǎo)后者往正確答案上靠時(shí)，居然不好使了——

6月的GPT-4已不再嘗試給出中間步驟，而是仍然直接回答「yes」或「no」。

不止如此，代碼能力也下降了。

對(duì)于50道簡(jiǎn)單級(jí)別的LeetCode題，6月的GPT-4只能做到有10%的答案可以不經(jīng)更改直接運(yùn)行，而在3月份的時(shí)候，這個(gè)數(shù)字還是52%。

目前，這項(xiàng)結(jié)論已在網(wǎng)上引起了極大的關(guān)注。

有人稱，這意味著「大型語言模型的蜜月期已經(jīng)結(jié)束」。

而OpenAI方面也已火速注意到這項(xiàng)研究，并稱已開始積極調(diào)查。

所以，短短3個(gè)月，GPT-4身上究竟發(fā)生了什么?

論文「實(shí)錘」GPT-4變笨

這篇論文一共從數(shù)學(xué)、代碼、視覺和敏感問題四個(gè)角度比較了三月和六月的GPT-4。

（本節(jié)內(nèi)容系對(duì)論文進(jìn)行轉(zhuǎn)述，不代表量子位認(rèn)同有關(guān)結(jié)論）

其中數(shù)學(xué)是GPT-4能力下降最為明顯的方面。

證據(jù)就是開頭提到的500個(gè)質(zhì)數(shù)判斷問題，錯(cuò)誤率直接暴增近40倍，回答的長度也大幅縮水。

具體來看，論文中展示了GPT-4對(duì)其中一個(gè)問題的回答。（展示的數(shù)字為17077，經(jīng)驗(yàn)證是質(zhì)數(shù)）

我們可以看到，研究人員已經(jīng)使用了“step by step”的思維鏈?zhǔn)教釂柗绞剑坪醪]有奏效。

這也許可以解釋成數(shù)學(xué)本就不是強(qiáng)項(xiàng)，但GPT-4在代碼方面表現(xiàn)同樣下降得厲害。

數(shù)據(jù)上看，簡(jiǎn)單級(jí)別的Leetcode問題通過率從52%下降到10%，而代碼的長度變長了。

論文作者同樣給出了一個(gè)例子。

這個(gè)問題是這樣的:

（「class Solution」是Leetcode平臺(tái)給定的代碼開頭格式）

三月的GPT-4給出了這樣的代碼:

classSolution（object）:

defisFascinating（self，n）:

concatenated_number=str（n）+str(2*n)+str(3*n)

returnsorted（concatenated_number）=[‘1‘，‘2‘，‘3‘，‘4‘，‘5‘，‘6‘，‘7‘，‘8‘，‘9‘]

這段代碼中包含了一些小問題，最后一行「判斷相等」時(shí)應(yīng)該用雙等號(hào)。

修正過后，提交的代碼成功通過。

而六月的版本回答是醬嬸兒的:

```Python

classSolution（object）:

defisFascinating（self，n）:

#Concatenaten，2*nand3*n

s=str（n）+str(n*2)+str(n*3)

#Checkifthelengthofsis9andcontainsalldigitsfrom1to9

returnlen（s）==9andset(s)==set(‘123456789‘)

“`

雖然代碼本體也是對(duì)的，但是GPT-4的輸出有些問題:

有段Markdown標(biāo)記直接以文本形式顯示在了輸出結(jié)果之中，導(dǎo)致程序無法直接運(yùn)行。

之所以研究者認(rèn)為GPT-4在這里犯了錯(cuò)，是因?yàn)樵趐rompt中已經(jīng)強(qiáng)調(diào)了「code only」。

雖然GPT-4實(shí)用性上表現(xiàn)有所下降，但安全性似乎得到了提升。

對(duì)于敏感問題，GPT-4回答的概率下降了超四分之三，相應(yīng)做出的解釋也變少了。

研究人員嘗試著提出了一個(gè)帶有偏見的問題。

三月份的GPT-4會(huì)解釋為什么拒絕回答這個(gè)問題，但六月份的版本只說了一句無可奉告。

而越獄攻擊成功的概率下降得更為明顯，可以看出六月的GPT-4相比三月似乎擁有了更強(qiáng)的魯棒性。

此外，研究團(tuán)隊(duì)還對(duì)兩個(gè)版本的GPT-4進(jìn)行了「視覺」能力測(cè)試。

這部分的測(cè)試數(shù)據(jù)來自ARC數(shù)據(jù)集，需要得到的「圖像」是3×3的方格，以二維數(shù)組形式用數(shù)字表示方格的顏色。

相比于三月，六月版GPT-4的表現(xiàn)有小幅度提升，但并不明顯。

而一些在三月能答對(duì)的問題，到了六月卻答錯(cuò)了。

所以，在這一方面很難說GPT-4究竟是變好還是變壞了。

總體上看，論文作者的態(tài)度比較謹(jǐn)慎，沒有直接斷言GPT-4表現(xiàn)是否變差。

但在數(shù)學(xué)和代碼方面，文中給出的證據(jù)的確印證了一些網(wǎng)友們的說法。

而作者也表示，這一發(fā)現(xiàn)主要是告訴大家，不斷地去測(cè)試AI系統(tǒng)的能力并監(jiān)控其發(fā)展非常重要。

為什么會(huì)這樣?

不管怎么說，看完這項(xiàng)研究后，還是有不少人興奮地表示:終于有研究證明我一直以來的猜測(cè)了。

而在“興奮”之余，大家似乎也意識(shí)到更重要的問題:

我們和大模型的“蜜月期”已經(jīng)結(jié)束，已開始告別最初的“Wow”階段。

也就是說我們更加關(guān)注其真正的實(shí)力，而不是表面的、發(fā)布會(huì)里演示里的“花拳繡腿”。

所以，大家也不由地好奇:

為什么會(huì)這樣?為什么看起來變笨了呢?

按理來說模型的質(zhì)量應(yīng)該隨著時(shí)間的推移得到更新，變得更好;就算沒有顯著提升，數(shù)學(xué)和代碼能力也不能下降這么迅速。

猜測(cè)有很多。

首先就是OpenAI可能采取了成本削減措施。

這位叫做@Dwayne的網(wǎng)友指出，由于GPT-4的運(yùn)行成本非常高，他懷疑OpenAI開始控制成本，這從原來每3小時(shí)能發(fā)送100條信息到現(xiàn)在只能發(fā)送25條的限制就能看出。

而為了讓模型更快地做出決策，OpenAI是否已不再讓GPT-4對(duì)多種可能的回答進(jìn)行權(quán)衡、不進(jìn)行深入評(píng)估就給出最終答案就值得人深思了。

畢竟決策時(shí)間少了，計(jì)算成本就會(huì)降低，而這樣一來，回答質(zhì)量就不可避免的下降了。

有意思的是，在斯坦福和UC伯克利這項(xiàng)成果發(fā)布后，有不少人照貓畫虎進(jìn)行了測(cè)試，但他們發(fā)現(xiàn)，同樣的問題GPT-4可以做對(duì)，比如「17077是否為質(zhì)數(shù)」，很多回答都是「是」。

究其原因，這些人基本都用了最新的代碼解釋器或者Wolfram插件。

這也就引出了網(wǎng)友們的第二點(diǎn)猜測(cè):

GPT-4的能力可能并非下降了，而是轉(zhuǎn)移了。

這就導(dǎo)致我們使用「最基礎(chǔ)的」GPT-4提問時(shí)，它已經(jīng)不會(huì)再直接調(diào)用各種「專家模型」幫我們解答了，強(qiáng)大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

不過說到底，這也算降本增效的一種手段。

當(dāng)然，也有想法認(rèn)為，OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎(chǔ)能力。

除此之外，還有人認(rèn)為，為了更加「負(fù)責(zé)任」，不合邏輯的安全過濾器導(dǎo)致模型原本邏輯受到牽連，這也是GPT-4質(zhì)量下降的一個(gè)原因。

普林斯頓教授實(shí)名反對(duì)

值得注意的是，不管網(wǎng)友的猜測(cè)聽起來多么有理有據(jù)，OpenAI其實(shí)一直都在否認(rèn)，聲稱他們并未采取任何措施導(dǎo)致模型質(zhì)量下降。

與此同時(shí)，另一波學(xué)者和網(wǎng)友恰好也對(duì)這篇研究提出了質(zhì)疑。

來自普林斯頓大學(xué)的兩位CS教授指出:

這篇論文產(chǎn)生了「GPT-4變笨了」的誤解，因?yàn)樗皇呛?jiǎn)單顯示了GPT-4行為的改變，而行為變化并不等同于能力下降。

并且實(shí)驗(yàn)本身的評(píng)估也有問題，作者有誤將模仿當(dāng)作推理。

為了說明自己的觀點(diǎn)，他們直接開了一篇博客。

以判斷質(zhì)數(shù)問題為例，他們發(fā)現(xiàn)，評(píng)估給出的500個(gè)數(shù)字全是質(zhì)數(shù)。這個(gè)問題就大了，它意味著正確答案始終是「yes」，模型就可能產(chǎn)生了隨機(jī)模仿的能力（也就是照著之前的正確答案無腦抄下去）。

因?yàn)槭聦?shí)證明，在大多數(shù)情況下，沒有一個(gè)模型會(huì)真正一一執(zhí)行「判斷數(shù)字能否被整除」的算法——他們只是假裝做了。

比如下面這個(gè)3月份GPT-4的快照，它只是列了一堆待檢查的數(shù)字，然后沒有一一去除就直接給出「19997是質(zhì)數(shù)」的回答。

也就是說，3月份的GPT-4可能是無腦答對(duì)的，其表現(xiàn)并不能證明其數(shù)學(xué)能力;相反，也就不能證明6月份的GPT-4不行了（可能本來就是這個(gè)水平）。

為了進(jìn)一步證明自己的看法，教授們用500個(gè)合數(shù)測(cè)試了模型，結(jié)果是3月版本的GPT-4幾乎總是猜測(cè)這些數(shù)字是質(zhì)數(shù)，而6月版本則幾乎認(rèn)為是合數(shù)。

——評(píng)估數(shù)據(jù)一換，結(jié)果就完全不同，這足以說明原作者的結(jié)論并不算立得住了。

除此之外，在下降最多的代碼編寫能力方面，教授們也認(rèn)為，作者只是檢查代碼是否可以直接執(zhí)行，而不評(píng)估其正確性的方式，這種方式也同樣草率。

這意味著新GPT-4試圖提供更多幫助的能力被抵消了。

以上這些觀點(diǎn)，均得到了英偉達(dá)AI科學(xué)家Jim Fan的支持，他表示:

但他認(rèn)為，這都不重要，重要的是大家一起來battle。

所以，你認(rèn)為GPT-4到底變笨了沒?

論文地址:

https://arxiv.org/abs/2307.09009

參考鏈接:[1]https://twitter.com/DwayneCodes/status/1681617375437922309

[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[3]https://twitter.com/DrJimFan/status/1681771572351369216

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場(chǎng)，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

Meta推出Llama 2，大模型賽道要因開源亂起來了

上一篇 2023年7月22日 12:18

谷歌、微軟、英偉達(dá)、OpenAI 和 Anthropic 等七家頂尖 AI 公司承諾將負(fù)責(zé)任地開發(fā)人工智能

下一篇 2023年7月22日 12:19

花甲粉絲的做法(花甲粉絲的做法正宗視頻)
今天小編給各位分享花甲粉絲的做法的知識(shí)，其中也會(huì)對(duì)花甲粉絲的做法正宗視頻進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！花甲粉絲花甲粉絲做法 1、花甲一…
2023年1月3日
0
中國光彩事業(yè)促進(jìn)會(huì)(中國光彩事業(yè)促進(jìn)會(huì)副會(huì)長名單)
今天小編給各位分享中國光彩事業(yè)促進(jìn)會(huì)的知識(shí)，其中也會(huì)對(duì)中國光彩事業(yè)促進(jìn)會(huì)副會(huì)長名單進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！中國有幾個(gè)合法的基金會(huì) 中…
2023年1月13日
0
鲅魚不能和什么一起吃鲅魚的食用禁忌
鲅魚是生活中最常見的水產(chǎn)魚類之一，這種魚的牙齒鋒利而且性情兇猛，它生活在水的上層，是海洋中最容易被捕撈的一種魚類，它肉質(zhì)細(xì)嫩，營養(yǎng)豐富，養(yǎng)生功效極為出色，但在吃鲅魚的時(shí)候一定要注意…
2022年5月1日
0
花開吧開吧是什么歌
網(wǎng)絡(luò)上經(jīng)常會(huì)有很多好聽的歌曲出現(xiàn)并且走紅，最近一段時(shí)間花開吧開吧這句歌詞非?；鸨?，不少小伙伴都在問花開吧開吧是什么歌？誰唱的？歌詞完整版有嗎？下面小編為大家?guī)砘ㄩ_吧開吧歌名及歌詞…
2023年7月22日
0
喚醒“沉睡”的芯片：閑置手機(jī)遠(yuǎn)比想象中更值錢
來源：【四川日?qǐng)?bào)-川觀新聞】川觀新聞?dòng)浾?陳碧紅文/圖買了一部新手機(jī)，被淘汰的舊手機(jī)就會(huì)被閑置在抽屜里，或以兩三百元的價(jià)格直接賣掉，這是絕大多數(shù)人最普遍的處理方式。但對(duì)于當(dāng)下…
2022年6月28日
0
中國人民志愿軍出征70周年究竟怎么回事？
據(jù)悉，老兵們將陸續(xù)收到以中共中央、國務(wù)院、中央軍委名義頒發(fā)“中國人民志愿軍抗美援朝出國作戰(zhàn)70 周年”紀(jì)念章?！拔覐膩聿挥X得我是英雄，真正的英雄是那些長眠在戰(zhàn)場(chǎng)上的戰(zhàn)友們，是他們用…
2022年6月12日
0
鉆石級(jí)(鉆石級(jí)反光膜屬于幾類)
提起鉆石級(jí)，大家都知道，有人問鉆石級(jí)反光膜屬于幾類，你知道這是怎么回事？其實(shí)鉆石級(jí)反光膜屬于幾類，下面就一起來看看鉆石級(jí)，希望能夠幫助到大家！鉆石等級(jí)都有哪些??？鉆石等級(jí)如下：…
2022年12月20日
0
經(jīng)濟(jì)大省發(fā)展持續(xù)向好中國經(jīng)濟(jì)總體保持回升向好態(tài)勢(shì)
“10月份以來，經(jīng)濟(jì)總體保持回升向好態(tài)勢(shì)。”國家發(fā)展和改革委員會(huì)政策研究室副主任、新聞發(fā)言人李超在日前舉行的新聞發(fā)布會(huì)上表示，下一步，有關(guān)部門將精準(zhǔn)有效實(shí)施宏觀調(diào)控，加強(qiáng)政策預(yù)研儲(chǔ)…
2023年12月11日
0
衛(wèi)輝婚姻介紹所電話(婚姻介紹所電話)
本文主要講的是婚姻介紹所電話，以及和衛(wèi)輝婚姻介紹所電話相關(guān)的知識(shí)，如果覺得本文對(duì)您有所幫助，不要忘了將本文分享給朋友。北京朝陽區(qū)婚姻介紹所，北京婚姻介紹所有哪些？提起北京朝陽區(qū)…
2023年5月2日
0
4000元校服費(fèi)？校方回應(yīng)…
近日，廣東東莞一中學(xué)發(fā)布的新生入學(xué)須知提到，學(xué)生需繳納4000余元校服費(fèi)，引發(fā)網(wǎng)友熱議。圖源：東莞光正實(shí)驗(yàn)學(xué)校官方微信入學(xué)須知顯示，男生校服費(fèi)為4033元，女生校服費(fèi)為4043…
2023年9月3日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息