在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<address id="d58l3"></address>

大模型就是「造夢機(jī)」，Karpathy一語驚人！人類才是「幻覺問題」根本原因

用戶投稿 ? 2023年12月10日 18:11 ? 熱點(diǎn)

幻覺，早已成為LLM老生常談的問題。

然而，OpenAI科學(xué)家Andrej Karpathy今早關(guān)于大模型幻覺的解釋，觀點(diǎn)驚人，掀起非常激烈的討論。

在Karpathy看來:

另外，Karpathy的另一句話，更是被許多人奉為經(jīng)典。他認(rèn)為，與大模型相對的另一個(gè)極端，便是搜索引擎。

「大模型100%在做夢，因此存在幻覺問題。搜索引擎則是完全不做夢，因此存在創(chuàng)造力問題」。

總而言之，LLM不存在「幻覺問題」。而且幻覺不是錯(cuò)誤，而是LLM最大的特點(diǎn)。只有大模型助手存在幻覺問題。

對此，英偉達(dá)高級科學(xué)家Jim Fan分享了自己的看法，「令人著迷的是，最好的LLM可以通過切換到『工具使用模式』來『決定』何時(shí)做夢，何時(shí)不做夢。網(wǎng)絡(luò)搜索是一種工具。LLM可以動態(tài)調(diào)整自己的『dream% 超參數(shù)』。GPT-4試圖做到這一點(diǎn)，但遠(yuǎn)非完美」。

亞利桑那州立大學(xué)的教授Subbarao Kambhampati也跟帖回復(fù)了Karpathy:

基于這個(gè)認(rèn)知，他認(rèn)為，所有想要將LLM的能力擬人化的嘗試都只是人類的一廂情愿，將思考、想法、推理和自我批評等擬人化概念強(qiáng)加在LLM上都是徒勞的。

人類應(yīng)該在認(rèn)清LLM能力的本質(zhì)基礎(chǔ)之上，將它當(dāng)作一個(gè)「補(bǔ)充人類認(rèn)知的矯正器」，而不是潛在的替代人類智能的工具。

當(dāng)然，討論這種問題的場合永遠(yuǎn)少不了馬老板的身影:「人生不過就是一場夢」。

感覺下一句他就要說，我們也只是生活在矩陣模擬之中。

Karpathy:LLM不存在「幻覺問題」，LLM助手才有

對于大模型飽受詬病的幻覺問題，Karpathy具體是如何看的呢?

我們用「提示」來引導(dǎo)這些「夢」，也正是「提示」開啟了夢境，而大語言模型依據(jù)對其訓(xùn)練文檔的模糊記憶，大部分情況下都能引導(dǎo)夢境走向有價(jià)值的方向。

只有當(dāng)這些夢境進(jìn)入被認(rèn)為與事實(shí)不符的領(lǐng)域時(shí)，我們才會將其稱為「幻覺」。這看起來像是一個(gè)錯(cuò)誤，但其實(shí)只是LLM本就擅長的事情。

再來看一個(gè)極端的例子:搜索引擎。它根據(jù)輸入的提示，直接返回其數(shù)據(jù)庫中最相似的「訓(xùn)練文檔」，一字不差。可以說，這個(gè)搜索引擎存在「創(chuàng)造力問題」，即它永遠(yuǎn)不會提供新的回應(yīng)。

「大模型100%在做夢，因此存在幻覺問題。搜索引擎則是完全不做夢，因此存在創(chuàng)造力問題」。

說了這么多，我明白人們「真正」關(guān)心的是，不希望LLM助手（ChatGPT等產(chǎn)品）產(chǎn)生幻覺。大語言模型助手遠(yuǎn)比單純的語言模型復(fù)雜得多，即使語言模型是其核心。

有很多方法可以減輕AI系統(tǒng)的幻覺:使用檢索增強(qiáng)生成（RAG），通過上下文學(xué)些將做夢更準(zhǔn)確回溯在真實(shí)數(shù)據(jù)上，這可能是最常見的一種方法。另外，多個(gè)樣本之間的不一致性、反思、驗(yàn)證鏈;從激活狀態(tài)中解碼不確定性;工具使用等等，都是熱門且有趣的研究領(lǐng)域。

總之，雖然可能有些吹毛求疵，，但LLM本身不存在「幻覺問題」?；糜X并非是缺陷，而是LLM最大的特點(diǎn)。真正需要解決幻覺問題的是大語言模型助手，而我們也應(yīng)該著手解決這一問題。

LLM是造夢機(jī)，請停止一廂情愿的「擬人化」

來自亞利桑那州立大學(xué)的AI科學(xué)家Subbarao Kambhampati教授，把自己的研究總結(jié)成了一篇X上的長文。

他認(rèn)為產(chǎn)生不同的認(rèn)知（包括幻覺）就是LLM本質(zhì)能力，所以不應(yīng)該對于LLM產(chǎn)生過于理想化的期待。

鏈接地址:https://twitter.com/rao2z/status/1718714731052384262

在他看來，人類應(yīng)該將LLM視為強(qiáng)大的認(rèn)知「模擬器」，而不是人類智能的替代品。

LLM本質(zhì)上是一個(gè)令人驚嘆的巨大的外部非真實(shí)記憶庫，如果使用得當(dāng)，可以作為人類強(qiáng)大的認(rèn)知「模擬器」。

而對于人類來說，想要發(fā)揮LLM的作用，關(guān)鍵是如何有效地利用LLM，而不是在這個(gè)過程中不斷用擬人化的企圖來自欺欺人。

人類對于LLM最大的錯(cuò)覺就是我們不斷地將LLM與人類智能相混淆，努力地將思考、想法、推理和自我批評等擬人化概念套在LLM之上。

這種擬人化是相當(dāng)徒勞的——而且，正如很多研究中展現(xiàn)的那樣——甚至?xí)m得其反并具有誤導(dǎo)性。

而從另一個(gè)角度說，如果我們不將「通過LLM開發(fā)出達(dá)到人類水平的AI系統(tǒng)」設(shè)定為唯一目標(biāo)，就不用天天批判自回歸LLM非常差勁（比如LeCun教授）。

LLM是可以非常有效地補(bǔ)充認(rèn)知的「模擬器」，并沒有天然包含人類的智力。

LLM在某些事情上能比人類做得好太多了，比如快速概括，歸納總結(jié)。

但是在做很多其他事情的能力上比人類又差太多了，比如規(guī)劃、推理、自我批評等。

人類真正需要的也許是:

1.充分利用LLM的優(yōu)勢。這可以在LLM產(chǎn)品架構(gòu)中加入人類或者其他具有推理能力的工具來強(qiáng)化LLM的優(yōu)勢。

2. 在某種程度上，人類水平的智能仍然是目前值得追尋的圣杯，保持開放的研究途徑，而不是僅僅是堆疊算力，擴(kuò)大自回歸架構(gòu)。

大模型幻覺，究竟從何來

前段時(shí)間，一個(gè)名為Vectara的機(jī)構(gòu)，在GitHub推出了一個(gè)大模型幻覺排行榜。

結(jié)果顯示，在總結(jié)短文檔方面，GPT-4的表現(xiàn)最為優(yōu)異，而Google PaLM的兩款模型直接墊。

其中，GPT-4的準(zhǔn)確率為97.0%，幻覺率為3.0%，回答率為100.0%。Palm-Chat2的準(zhǔn)確率為72.8%，幻覺率高達(dá)27.2%，回答率為88.8%。

不過，這個(gè)榜單一出來，受到了許多業(yè)內(nèi)人士的質(zhì)疑。

OpenAI聯(lián)合創(chuàng)始人兼研究員John Schulman曾在一次演講——「RL和Truthfulness – Towards TruthGPT」，探討了幻覺問題。

根據(jù)Schulman的說法，幻覺大致可以分為兩種類型:

– 模型猜測錯(cuò)誤

– 模式完成行為:語言模型無法表達(dá)自己的不確定性，無法質(zhì)疑提示中的前提，或者繼續(xù)之前犯的錯(cuò)誤。

語言模型代表一種知識圖譜，其中包含來自其自身網(wǎng)絡(luò)中訓(xùn)練數(shù)據(jù)的事實(shí)，因此「微調(diào)」可以理解為學(xué)習(xí)一個(gè)函數(shù)，該函數(shù)在該知識圖譜上運(yùn)行并輸出token預(yù)測。

舉個(gè)例子，微調(diào)數(shù)據(jù)集可能包含「星球大戰(zhàn)屬于什么類型影片」這個(gè)問題，以及答案「科幻」。

如果這些信息已經(jīng)在原始訓(xùn)練數(shù)據(jù)中，即它是知識圖譜的一部分，那么模型不會學(xué)習(xí)新信息，而是學(xué)習(xí)一種行為——輸出正確答案。這種微調(diào)也被稱為「行為克隆」。

但是，如果答案不是原始訓(xùn)練數(shù)據(jù)集的一部分（也不是知識圖譜的一部分），即使網(wǎng)絡(luò)不知道答案，它便會學(xué)習(xí)回答。

使用實(shí)際上正確但不在知識圖譜中的答案進(jìn)行微調(diào)，從而教會網(wǎng)絡(luò)編造答案——即產(chǎn)生「幻覺」。相反，用不正確的答案進(jìn)行訓(xùn)練會導(dǎo)致網(wǎng)絡(luò)隱瞞信息。

網(wǎng)友激烈探討

「LLM 是一個(gè)造夢機(jī)」。多么美妙的一句話。如果我們?nèi)祟愐采钤诟呔S度創(chuàng)造者構(gòu)造的夢境中，那么LLM將來是否也能遞歸地創(chuàng)造出做夢的機(jī)器?

另一位網(wǎng)友分享了他要求ChatGPT給自己的回復(fù)進(jìn)行置信度評分時(shí)，ChatGPT給了90%，并且解釋了原因:

其實(shí)對于幻覺的討論本質(zhì)上就是對于「真理」的討論，也許并沒有什么東西是絕對客觀的「真理」。

當(dāng)所需數(shù)據(jù)已經(jīng)存可用時(shí)，并不總是需要搜索事實(shí)。然而，LLM面臨的挑戰(zhàn)在于其學(xué)習(xí)過程，這通常涉及一種「破壞性」數(shù)據(jù)壓縮。解決這個(gè)問題——減少數(shù)據(jù)丟失，不僅能緩解幻覺問題，還能減少對大量訓(xùn)練數(shù)據(jù)集的需求。

事實(shí)上，我們的最終目標(biāo)不僅僅是創(chuàng)造更多的LLM，而是實(shí)現(xiàn)真正的智能。雖然LLM通過語言理解提供了一瞥，但它們的根本缺陷是學(xué)習(xí)過程損害了數(shù)據(jù)完整性。理想的架構(gòu)應(yīng)該是在學(xué)習(xí)過程中保留數(shù)據(jù)，保持對原始信息的忠實(shí)，同時(shí)還能讓模型發(fā)展和完善其智能。我假設(shè)這樣的架構(gòu)可能涉及復(fù)制數(shù)據(jù)而不是壓縮數(shù)據(jù)。

每個(gè)LLM都是一個(gè)不可靠的敘述者，就其架構(gòu)的本質(zhì)而言，它是不可逆轉(zhuǎn)的。

對于大模型幻覺問題的解釋，你贊同Karpathy的看法嗎?

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

盧偉冰：只有上手體驗(yàn) 才能感受Redmi K70的細(xì)致

上一篇 2023年12月10日 18:10

云峰新材：堅(jiān)持布局綠色人居做時(shí)代之變下的領(lǐng)導(dǎo)者(云峰新材股票)

下一篇 2023年12月10日 18:12

老干媽市值(老干媽市值多少億2021)
文|蛋殼我們常常為中國股市錯(cuò)失了BAT而遺憾不已，而華為、老干媽這樣的優(yōu)秀企業(yè)，又端著高高的架子不肯入市。那么A股近三千家公司里，有沒有一家企業(yè)具備同樣優(yōu)秀基因，又肯讓股民參與…
2022年10月25日
0
47歲中國女子赴美見網(wǎng)友，雙雙身亡！警方公布死因
※ 編輯：周詳 ※ 審核：鄭舒平繆蘊(yùn)華 ※ 來源：中國新聞社·中國僑網(wǎng)、中國新聞網(wǎng)、中國駐洛杉磯總領(lǐng)事館據(jù)中國僑網(wǎng)援引美媒報(bào)道，47歲的中國女子金芳（Fang Jin )赴美見…
2023年12月16日
0
井川里予33秒黑料正能量視頻原視頻觀看
　　井川里予是誰？你居然還不知道？井川里予剛開始走紅的時(shí)候，一聽名字，我以為是日本人，后來才知道是實(shí)實(shí)在在的中國人。在短視頻里，我是一個(gè)古板的人，雖然這些網(wǎng)紅很不看重，但是，她的敢…
2022年7月26日
0
休閑零食進(jìn)貨渠道有哪些
關(guān)于休閑零食貨源批發(fā)在哪里拿貨比較好呢？隨著各大市場的火爆，有越來越多的新手商家對于休閑零食進(jìn)貨渠道感興趣，而現(xiàn)在休閑零食進(jìn)貨渠道有哪些？商家一般在哪里批發(fā)零食貨源最便宜呢？下面給…
2023年7月1日
0
趵突泉在哪個(gè)城市?哪個(gè)地方?(趵突泉在哪)
大家好，今天給各位分享趵突泉在哪的一些知識，其中也會對趵突泉在哪個(gè)城市?哪個(gè)地方?進(jìn)行解釋，文章篇幅可能偏長，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在就馬上開始吧！趵…
2023年5月13日
0
梅子熟了暗示什么(男生對女生說梅子熟了暗示什么)
最近關(guān)于梅子熟了這個(gè)梗熱度也是非常高的，隨著梅子熟了出現(xiàn)的頻率越來越高，大家對這個(gè)梗的含義也是咨詢不斷。梅子熟了暗示什么呢？梅子熟了是什么意思？網(wǎng)上不斷有網(wǎng)友咨詢這個(gè)梗使用情況及含…
2023年5月6日
0
美國一高校教授認(rèn)為禁止AI是不明智的鼓勵學(xué)生使用AI
極客號(Xqh8.com) 8月22日消息:盡管高等教育界對學(xué)生使用人工智能存在作弊等問題的的擔(dān)憂，美國亞特蘭大埃默里大學(xué)的一位教授表示，這項(xiàng)技術(shù)也可能成為教育領(lǐng)域的一個(gè)亮點(diǎn)，具…
2023年8月22日
0
娛樂圈曝出大瓜王麗坤被曝帶走調(diào)查老公涉嫌詐騙超8億
2月7日，娛樂圈出了一件大八卦。知名女演員克勞迪婭(Claudia)涉嫌大事件，其丈夫涉嫌詐騙數(shù)億美元。據(jù)悉，娛樂圈知名藝人楊洋在個(gè)人賬號上公開點(diǎn)名女明星克勞迪婭，稱自己的新作《…
2023年3月15日
0
重慶合川什么時(shí)候解封恢復(fù)正常出行(重慶合川什么時(shí)候解封)
這幾天重慶疫情的新增情況也是比較嚴(yán)重的，大家對重慶本輪疫情防控措施也都十分關(guān)注。重慶合川什么時(shí)候解封恢復(fù)正常出行？據(jù)悉日前重慶合川疫情對民眾生活帶來極大的影響，大家也都在咨詢此次疫…
2022年11月18日
0
山西一高速隧道內(nèi)大巴車撞墻致5死多傷，醫(yī)院：4輛救護(hù)車來回跑了6趟
極目新聞記者丁鵬 8月23日17時(shí)30分許，山西省忻州市五臺縣境內(nèi)的滄榆高速鳳凰嶺隧道內(nèi)，一輛大巴車行駛時(shí)撞擊隧道內(nèi)墻，致5人死亡，多人受傷。24日，極目新聞（報(bào)料郵箱：jimu…
2023年8月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息