在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<address id="1dmrn"><nav id="1dmrn"><thead id="1dmrn"></thead></nav></address>

<address id="1dmrn"><var id="1dmrn"><ruby id="1dmrn"></ruby></var></address>

<label id="1dmrn"><tt id="1dmrn"></tt></label>

<dfn id="1dmrn"></dfn>

GPT-4 未通過圖靈測試，GPT-3.5 還敗給六十年前的老 AI 系統(tǒng)，最新研究出爐！

用戶投稿 ? 2023年12月5日 18:09 ? 熱點(diǎn)

過去一年間，能說會道的ChatGPT、最新的 GPT-4大模型，其能力也已超乎很多人的想象，一場由 OpenAI 引領(lǐng)推動的 AIGC 浪潮席卷全球各大科技公司。但是從學(xué)術(shù)研究的角度來看，其表現(xiàn)力距離人類智能究竟還有多遠(yuǎn)?

近日，一篇由加州大學(xué)圣迭戈分校的兩位研究人員 Cameron Jones（認(rèn)知科學(xué)專業(yè)博士生）和 Benjamin Bergen(該校認(rèn)知科學(xué)系教授)發(fā)布的《GPT-4通過圖靈測試了嗎?》(https://arxiv.org/pdf/2310.20216.pdf)論文，吸引了不少 AI 學(xué)者的關(guān)注。

出乎意料的是，根據(jù)論文結(jié)果顯示:

在更具人性方面，人類贏了，不過 OpenAI 的模型還是能夠騙過很多人類;

GPT-4不符合圖靈測試的成功標(biāo)準(zhǔn);

ChatGPT 免費(fèi)版所使用的 GPT-3.5模型敗給了60年前發(fā)布的老 AI 聊天機(jī)器人ELIZA;

首發(fā)于1966且由約瑟夫·維森鮑姆在麻省理工學(xué)院研發(fā)的聊天機(jī)器人ELIZA之所以得分比 GPT-3.5高，不是因?yàn)樗斆?，而是因?yàn)樗宦斆鳎瑢?dǎo)致很多問題無法直接給出答案，這讓人覺得它太過高冷，像是人類扮演的。

一石激起千層浪，有人認(rèn)為，這并不奇怪，因?yàn)?OpenAI 擔(dān)心會有欺騙，GPT-4被明確調(diào)整為不通過圖靈測試。

也有人表示，“圖靈測試實(shí)際上是一種超窄的方法。圖靈令人難以置信的優(yōu)點(diǎn)是毋庸置疑的。但圖靈測試范式對于幾十年來人工智能的項(xiàng)目和發(fā)展來說絕對是致命的。”

還有更多的人認(rèn)為，盡管存在一些限制和警告，不過這篇論文對人工智能模型之間進(jìn)行了深度的比較，并對使用圖靈測試評估人工智能模型性能提出了更多問題，同樣值得思考。

比較人類和機(jī)器的智能水平，引發(fā)爭議的圖靈測試

所謂圖靈測試，是由英國數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家艾倫·圖靈（Alan Turing）于1950年提出的一個(gè)測試概念，用于評估機(jī)器是否具有人類智能。這個(gè)測試的核心思想是，一個(gè)人類評判者通過對話形式，與一個(gè)機(jī)器和一個(gè)人類進(jìn)行交互，然后在不知道對話對象的真實(shí)身份前提下，判斷哪個(gè)是機(jī)器，哪個(gè)是人類。

具體來說，圖靈測試的步驟如下:

1. 一個(gè)評判者（通常是人類）在與兩個(gè)對話對象進(jìn)行文本交流時(shí)，其中一個(gè)是機(jī)器，另一個(gè)是人類。這個(gè)交流可以通過鍵盤和在屏幕輸入進(jìn)行，以確保評判者無法通過聲音或外觀來判斷對話對象的身份。

2. 評判者的目標(biāo)是在與兩個(gè)對象交流后，準(zhǔn)確地區(qū)分出哪個(gè)是機(jī)器，哪個(gè)是人類。

3. 如果機(jī)器成功地使評判者無法區(qū)分其回答與人類的回答，那么這臺機(jī)器被認(rèn)為通過了圖靈測試，表現(xiàn)出具有人類智能的跡象。

值得注意的是，圖靈測試并沒有明確規(guī)定機(jī)器需要模仿人類的所有方面，而是強(qiáng)調(diào)機(jī)器是否能夠在對話中表現(xiàn)出類似于人類思維和智能的特征。圖靈測試成為人工智能領(lǐng)域中一個(gè)重要的思想實(shí)驗(yàn)，用于探討和評估機(jī)器智能的發(fā)展。

研究人員希望利用圖靈測試來了解聊天機(jī)器人的人性化特征。不過一直以來，因?yàn)橹饔^性和相對性、缺乏客觀標(biāo)準(zhǔn)等因素，圖靈測試就成了確定機(jī)器模仿人類對話能力的一個(gè)著名但有爭議的基準(zhǔn)。

測試方法

在這篇論文中，兩位研究人員安排了兩種角色:

一種是調(diào)查員，他們需要查明自己是人工智能還是人類聊天;

另一種是見證人，他們需要讓對方相信自己的人性。當(dāng)然見證人里面有真的人類，也有25名 LLM 見證人。為了讓測試更為準(zhǔn)確，每個(gè) LLM由一個(gè)模型（GPT-3.5、GPT-4、ELIZA）、一個(gè)溫度設(shè)置(0.2、0.5或1.0)和一個(gè)提示組成。提示描述了交互的上下文和對模型的回復(fù)指導(dǎo)，如下圖所示:

研究人員變化了提示的幾個(gè)方面，包括模型是否應(yīng)產(chǎn)生拼寫、語法和大小寫錯(cuò)誤;模型應(yīng)該采用的人格;模型被告知其是人類還是假裝是人類的 AI。所有提示都包含關(guān)于游戲說明的通用信息，以及它們的訓(xùn)練結(jié)束日期之后發(fā)生的重要事件。在每場游戲開始時(shí)，會從一個(gè)列表中為模型的人格生成一個(gè)建議名稱。提示還包括游戲創(chuàng)建的時(shí)間戳和最新消息的時(shí)間戳。

值得一提的是，這項(xiàng)研究獲得了加州大學(xué)圣地亞哥分校IRB的批準(zhǔn)，所以研究人員Cameron Jones（認(rèn)知科學(xué)專業(yè)博士生）和Benjamin Bergen(該校認(rèn)知科學(xué)系教授)建立了一個(gè)名為 turingtest.live 的網(wǎng)站，此網(wǎng)站提供一個(gè)看起來像一個(gè)傳統(tǒng)的消息應(yīng)用程序的聊天界面。

然后，參與者進(jìn)入等待室，在那里他們會被隨機(jī)分配與另一個(gè)人類或 AI 進(jìn)行游戲。調(diào)查員發(fā)送第一條消息，每個(gè)用戶一次只能發(fā)送一條消息。整個(gè)對話有5分鐘的時(shí)間限制，單個(gè)消息有300個(gè)字符的限制。

在雙方聊天過程中，調(diào)查員最常用的策略包括閑聊以及詢問相關(guān)知識和時(shí)事。

更成功的策略包括使用非英語語言、詢問時(shí)間或時(shí)事，以及直接指控見證人是人工智能模型。

然后，調(diào)查員根據(jù)收到的答復(fù)做出判斷。在游戲結(jié)束時(shí)，調(diào)查員使用一個(gè)決策界面來提供:

一個(gè)決定（見證人是否為人類）;

他們對決定的置信度（0-100）;

決定的原因（可選填）。

有趣的是，研究發(fā)現(xiàn)，調(diào)查員的判斷主要基于語言風(fēng)格和社會情感特征，而不僅僅是對智力的感知。調(diào)查員還注意到何時(shí)回答過于正式或不正式時(shí)，或者何時(shí)回答缺乏個(gè)性或顯得一般。研究還表明，調(diào)查員個(gè)人的教育程度和對大型語言模型（LLMs）的熟悉程度并不能顯著預(yù)測他們檢測人工智能的成功率。

最終結(jié)果

實(shí)驗(yàn)涉及652名參與者，他們共完成了1810次游戲，在排除了某些情況后，這些情況包括重復(fù)的人工智能游戲（導(dǎo)致在其他人類不在線時(shí)預(yù)期人工智能模型的互動）、或者參與者和見證人之間的個(gè)人熟識、他們有時(shí)坐在同一個(gè)房間里，研究人員最終對其中的1405次游戲進(jìn)行了分析。

令人驚訝的是，60年前的老 AI 聊天機(jī)器人 ELIZA 在研究中得分相對較高，成功率達(dá)到27%。根據(jù)提示，GPT-3.5的成功率為14%，低于 ELIZA。GPT-4的成功率為41%，僅次于真人。

最終，研究員得出結(jié)論:GPT-4不符合圖靈測試的成功標(biāo)準(zhǔn)，既沒有達(dá)到50% 的成功率（大于50或等于50的概率），也沒有超過人類參與者的成功率。

研究人員推測，如果有正確的提示設(shè)計(jì)，GPT-4或類似模型最終可能會通過圖靈測試。不過，挑戰(zhàn)在于如何模仿人類對話風(fēng)格的微妙之處來設(shè)計(jì)提示語。與 GPT-3.5一樣，GPT-4也被設(shè)定為不以人類身份出現(xiàn)。該研究員在論文中寫道:“看來很有可能存在更有效的提示，因此我們的結(jié)果低估了 GPT-4在圖靈測試中的潛在表現(xiàn)?！?/p>

至于那些未能讓其他人類相信自己是真實(shí)存在的人類，這可能更多反映了測試的性質(zhì)和結(jié)構(gòu)以及調(diào)查員的期望，而不是人類智力的任何特定方面。研究員表示:“一些人類證人假裝自己是人工智能，進(jìn)行‘兜售‘。”同樣，一些調(diào)查員也將這種行為作為人類判決的理由。因此，「我們的結(jié)果可能低估了人類的表現(xiàn)，而高估了人工智能的表現(xiàn)」，研究員說道。

對于在研究中的ELIZA 之所以會勝過 GPT-3.5，該論文的作者推斷:

首先，ELIZA 的回答傾向于保守。雖然這通常會給人一種對話者不合作的印象，但這也避免了系統(tǒng)提供諸如錯(cuò)誤信息或晦澀知識等明確線索。

其次，ELIZA 并沒有表現(xiàn)出調(diào)查者所認(rèn)為的 LLM 所具有的那種暗示，例如樂于助人、友好和滔滔不絕。

最后，一些調(diào)查者認(rèn)為，ELIZA “太糟糕”，不像是當(dāng)前的人工智能模型，因此更像是人類故意不合作。

而對于免費(fèi)版 ChatGPT 的基礎(chǔ)模型GPT-3.5的失利，有人認(rèn)為，OpenAI 對其進(jìn)行了專門的調(diào)節(jié)，使其不會以人類的形象出現(xiàn)，這可能是其表現(xiàn)不佳的部分原因。

與此同時(shí)，普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授 Arvind Narayanan 在 X 上也發(fā)表了自己的看法，其表示:

「關(guān)于“ChatGPT 未通過圖靈測試”論文的重要背景。一如既往，測試行為并不能說明能力。我認(rèn)為在這項(xiàng)任務(wù)中測試 LLM 的一種更豐富的方法是采用一個(gè)基本模型并在聊天日志上對其進(jìn)行微調(diào)。

ChatGPT 經(jīng)過微調(diào)，語氣正式，不發(fā)表意見等，這使得它不太人性化。作者試圖用提示來改變這一點(diǎn)，但它有局限性。假裝人類聊天的最好辦法就是在人類聊天記錄上進(jìn)行微調(diào)?！?/p>

最后，對于這項(xiàng)測試，該論文的作者也承認(rèn)這項(xiàng)研究存在局限性，包括從社交媒體招募樣本可能存在偏差，以及缺乏對參與者的激勵措施，這可能會導(dǎo)致一些人無法完成預(yù)期的角色。他們還表示，“他們的研究結(jié)果（尤其是 ELIZA 的表現(xiàn)）可能支持了人們對圖靈測試的普遍批評，認(rèn)為它是衡量機(jī)器智能的一種不準(zhǔn)確的方法。”

盡管如此，「我們認(rèn)為，作為衡量流暢的社交互動和欺騙行為的框架，以及理解人類適應(yīng)這些設(shè)備的策略，該測試仍具有現(xiàn)實(shí)意義」，研究員說道。

對此，更詳盡的研究內(nèi)容可查閱完整論文:https://arxiv.org/abs/2310.20216

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

用戶投稿

通義千問官網(wǎng)體驗(yàn)入口 AI智能聊天大模型軟件app免費(fèi)下載地址
上一篇 2023年12月5日 18:08

秘塔寫作貓官方體驗(yàn)入口 AI寫作軟件哪個(gè)好用
下一篇 2023年12月5日 18:09

日本電視劇收視率歷史排名(電視劇收視率歷史排名)
收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會去看，好像如果這個(gè)夏天沒有看這個(gè)電視劇，夏天好像就沒有到來?？梢娺@部電視劇對于…
2024年1月24日
0
液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦？
液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備，其核心功能是傳遞能量，實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用，液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…
2024年1月24日
0
湖南暴雪已致1萬多人受災(zāi)
據(jù)@湖南氣象，22日7時(shí)至23日7時(shí)，湘中、湘南出現(xiàn)大到暴雪，長沙（瀏陽）、株洲（醴陵、茶陵）等13個(gè)縣市區(qū)出現(xiàn)大暴雪，郴州（北湖區(qū)）、株洲（荷塘區(qū)）出現(xiàn)特大暴雪；全省23個(gè)縣市…
2024年1月24日
0
落馬貪官退贓像“割肉”，詢問能不能少交點(diǎn)
“就像割我身上的肉一般，會讓我痛不欲生?！?24日，中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…
2024年1月24日
0
中國gdp排行榜城市(中國gdp排行榜)
中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計(jì)局官網(wǎng)信息顯示，2023年各省排名，廣東：GDP為1243667億。江蘇：GDP為116362億。山東：GDP為83099億。浙江：GDP為…
2024年1月24日
0
SK-II大中華區(qū)季度銷售額暴跌34%，寶潔：日本核污水排海是主因
財(cái)聯(lián)社1月24日訊（編輯卞純）全球日用消費(fèi)品巨頭寶潔公司（ProcterGamble）周二表示，在截至12月底的第二財(cái)季，其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%，…
2024年1月24日
0
呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退
呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退原標(biāo)題：呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退央視網(wǎng)消息：據(jù)@呼和浩特白塔國際機(jī)場消息，呼和浩…
2024年1月24日
0
退休職工舉報(bào)局長被判刑，被舉報(bào)人卻提級退休把人看懵了
文|龍之朱又見錯(cuò)抓錯(cuò)判上了熱搜。據(jù)媒體報(bào)道，從2016年3月起，安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長王超經(jīng)濟(jì)問題，均石沉大海。 2017年7月，李平夫婦及親…
2024年1月24日
0
6寸蛋糕用5斤車?yán)遄拥昙业狼?
【#6寸蛋糕用5斤車?yán)遄拥昙业狼?：客服能力不足，多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日，有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日，涉事店家就“6寸…
2024年1月24日
0
格蘭芬多院徽簡筆畫(格蘭芬多院徽)
哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院，一共分為四個(gè)學(xué)院，分別是：格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…
2024年1月24日
0

聯(lián)系我們
聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

亚洲成在人线中文字国产一级精品视频日本一本区免费中文高清国产手机精品偷伦视频播放国产欧美韩国AⅤ片在线