在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<address id="iy1vp"><b id="iy1vp"></b></address><style id="iy1vp"></style>

誰在“吊打”ChatGPT？

用戶投稿 ? 2023年11月9日 12:18 ? 科技

本文轉(zhuǎn)載自：定焦（ID：dingjiaoone），作者：黎明，編輯：方展博。獵云網(wǎng)已獲授權(quán)。

AI行業(yè)的“百模大戰(zhàn)”已經(jīng)打了大半年。從上半年的火熱，到下半年的漸冷，勝負難分。

GPT成了國內(nèi)廠商的靶子。幾乎每家在發(fā)布大模型時，都要把GPT拉出來對比一波，而且他們總能找到一個指標把GPT超越——比如，中文能力。測評類的榜單太多了。從英文的MMLU，到中文的SuperCLUE，再到借鑒游戲排位賽機制的ChatbotArena，各種大模型榜單讓人眼花繚亂。

很多時候，榜單上的排名成為廠商對外宣傳的工具。但奇怪的是，用戶在體驗后發(fā)現(xiàn)，號稱超越ChatGPT的一些大模型產(chǎn)品，實際表現(xiàn)不盡如人意。各種不同的統(tǒng)計排名口徑，更是讓人感到迷惑。以至于“第一”太多，榜單都快不夠用了。

比如最近，昆侖萬維開源「天工」系列大模型，號稱多榜超越Llama 2；李開復的零一萬物公司發(fā)布開源大模型“Yi”，“問鼎”全球多項榜單；vivo發(fā)布自研AI“藍心”大模型，是國內(nèi)“首家”開源7B大模型的手機廠商。

如此之多的大模型，跑馬圈地這半年，大家做得怎么樣？我們又該如何評價孰優(yōu)孰劣？

“刷榜”，大模型公開的秘密

就像當年手機廠商流行跑分打榜，現(xiàn)在的大模型廠商，也熱衷于沖上各種榜單。

大模型相關(guān)的榜單很多，學術(shù)圈、產(chǎn)業(yè)界、媒體智庫、開源社區(qū)，都在今年推出了各種各樣的評測榜單。這其中，國內(nèi)廠商常常引用的是SuperCLUE和C-Eval，這倆都由國人自己推出。

5月6日科大訊飛發(fā)布星火認知大模型，三天后SuperCLUE發(fā)布榜單，星火排在國產(chǎn)第一；6月13日360集團發(fā)布360智腦大模型，六天后SuperCLUE更新榜單，360成了第一。再后來的7月、8月、9月、10月榜單，拿下國產(chǎn)第一的分別是百度、百川智能、商湯、vivo?！暗琼敗薄皧Z冠”“國內(nèi)第一”，出現(xiàn)在這些廠商的宣傳中。

有好事者發(fā)現(xiàn)，科大訊飛在5月9日“奪冠”時，SuperCLUE官網(wǎng)顯示的顧問成員中，排在最前面的那位，頭銜是哈工大訊飛聯(lián)合實驗室（HFL）資深級研究員。發(fā)榜第二天，這位專家的信息被官網(wǎng)刪除了。

當時，SuperCLUE只用了幾百道題進行測試，被人質(zhì)疑不夠客觀。而在國外，早就有一個叫做SuperGLUE的權(quán)威榜單，二者名稱相似度極高，讓人傻傻分不清楚。

后來，SuperCLUE對測評標準和題目數(shù)量進行了完善，日漸成為國內(nèi)知名度較高的測評榜。大模型測評領(lǐng)域的業(yè)內(nèi)人士趙小躍對「定焦」說，一些測評機構(gòu)有題庫，用接入各家廠商API的方式來測試，但其實測一遍之后，廠商就知道測過什么題，除非下輪測試換題，否則廠商可以用定向爆破的方式得高分。在他看來，一套題只要測過一家模型，題目就廢了，因為模型可以通過API獲取題目，題目的可重復性為零。

這是模型評測最有挑戰(zhàn)的一件事情。

C-Eval榜單剛推出時，業(yè)內(nèi)是認可的。它由上海交通大學、清華大學、愛丁堡大學共同完成，有13948道題目。但很快，大家就發(fā)現(xiàn)，一些原本知名度不高的大模型，突然沖到了榜首，甚至把GPT4踩在腳下使勁摩擦。

在9月初的榜單中，云天勵飛大模型總分排第一，360排第八，GPT4居然排第十。再后來，拿過榜單第一的還有度小滿金融大模型、作業(yè)幫銀河大模型，業(yè)內(nèi)公認最強的GPT4被它們無情甩在了身后。

成績墊底，到底是GPT錯了還是榜錯了？顯然，榜單有問題，因為它遭遇了“不健康的刷榜”。C-Eval團隊在官網(wǎng)發(fā)出聲明，承認評測方式有局限性，同時指出了刷榜得高分的一些方法，比如：從GPT-4的預測結(jié)果蒸餾，找人工標注然后蒸餾，在網(wǎng)上找到原題加入訓練集中微調(diào)模型。這三種方法，前兩種可以視為間接作弊，第三種相當于直接作弊。

大模型從業(yè)者李健對「定焦」說，間接作弊，就是知道考試大概的類型，然后花較多精力把可能的題目都找出來或叫專業(yè)的人造出來，答案也給出來，用這樣的數(shù)據(jù)訓練模型。

他指出，業(yè)內(nèi)現(xiàn)在常用的手段是，讓GPT4來“造答案”，然后得到訓練數(shù)據(jù)。李健分析，直接作弊，就是知道考試題目，然后稍微改改，得到新的很多份題目，之后直接拿來訓練模型?！霸谇宄駟稳蝿?wù)的情況下，很多類型的任務(wù)，很容易刷榜。”他說。這樣得到的分數(shù)是沒有意義的?！爸苯幼鞅谆緦μ嵘Ｐ偷姆夯芰Γㄅe一反三）沒用，間接作弊有點像做題家，對提升學生真實的素質(zhì)弊大于利?！睘榱俗尅坝脩糁斏骺创韵掳駟巍?，C-Eval團隊不得不將榜單拆分成兩個，一個是模型已公開的，一個是未公開的。

結(jié)果，那些得分高的基本全是未公開的大模型。而這些模型的真實表現(xiàn)，人們是無法體驗的。

復旦大學計算機科學技術(shù)學院教授邱錫鵬說，C-Eval本身質(zhì)量還挺高，但被刷榜后導致學術(shù)價值不大了。現(xiàn)在很多企業(yè)去刷榜，但又不公開數(shù)據(jù)，也不具體說怎么做，這是一種不公平的競爭。

多位大模型從業(yè)者對「定焦」說，刷榜在大模型行業(yè)很常見。躍盟科技創(chuàng)始人王冉對「定焦」打了一個比方：“先射完箭再畫靶子”。他認為今天的某些測評手段，是有一些大模型公司為了表現(xiàn)自己牛而專門設(shè)計的。盛景嘉成董事總經(jīng)理劉迪認為，有答案或者評分標準，就有人能鉆空子。單靠數(shù)據(jù)集和問題集的評判方式，很難評出大模型在應(yīng)用層面的好壞。“一個丹一個煉法，哪個對癥還得吃下去看。”他對「定焦」說。

考試拿第一，不是好學生？

大模型評測，作為評估大模型綜合實力的一個手段，還有參考價值嗎？

趙小躍認為，在核心的通用能力上，比如語言理解、邏輯推理等，學術(shù)數(shù)據(jù)集的榜單測評能反映七八成。這其中最大的問題是，開源的榜單結(jié)果跟大家用大語言模型的場景之間有鴻溝?！皽y評只能反映模型某一部分的能力，大家其實都是從不同的維度盲人摸象，很難知道它的能力邊界在哪里?！彼f。

對于大語言模型，首先在語言上，分為英文和中文兩大語種。國外大模型的訓練語料以英文為主，所以英文很強，但中文不一定比國內(nèi)大模型強。這也是為什么國內(nèi)很多大模型，都在“超越ChatGPT”之前加一個“中文能力”的定語。

其次在考察科目上，評測數(shù)據(jù)集通常會設(shè)置很多個方面，從百科知識到角色扮演，從上下文對話到閑聊。但這些能力只能單一評價，然后得分加總。這跟評價一個人很像。任何一道考卷，都只能測試出這個人某方面的能力。即便是全套試卷的成績，也不等同于這個人的能力。就像ChatGPT的榜單排名不一定能比過國內(nèi)的一些大模型，但使用體驗上就是更好。

王冉認為，如果將大模型比作一個人的大腦，如何評測一個人的大腦好用，如果只給他做題，其實是充滿偏見的?！按竽Ｐ偷臏y評不應(yīng)該用考試來做，而應(yīng)該用應(yīng)用來做?！?/p>

人工智能公司開放傳神（OpenCSG）創(chuàng)始人、CEO陳冉認為，通用性的評測，看綜合得分，沒有一個大模型超過GPT4，但是在特定領(lǐng)域，可能有些指標GPT4得分不一定高。問題在于，有些廠商拿特定領(lǐng)域的得分，去宣傳整體超過了GPT4?！斑@就是以偏概全，我覺得有些廠商在對外宣傳時，還是要對生態(tài)公司給到正確的指引，具體哪個指標在哪個領(lǐng)域得分高，要說清楚?！?/p>

他對「定焦」表示。而一旦測評成績進入排名賽，有了功利的成分，有些廠商就會有刷榜的動機?！皬乃竦慕嵌龋惶鼙ＷC中小廠不會把這部分數(shù)據(jù)拿去訓練，這是大家對公開數(shù)據(jù)集最大的顧慮?！壁w小躍說。綜合多位業(yè)內(nèi)人士的觀點，目前國內(nèi)還沒有一個特別好的數(shù)據(jù)集，能綜合反映大模型的能力，各方都在探索。李健在今年做了“CLiB中文大模型能力評測榜單”，為了避免泄題，他盡量參考業(yè)界好的方案，自己出題。

“主要是業(yè)界和學術(shù)界的榜單，不太讓人滿意，公開程度不高，都是各說各話。”還有一些非商業(yè)性質(zhì)的機構(gòu)相信，測評榜單最大的意義在于，從模型演化的角度，能夠幫助廠商監(jiān)控模型生產(chǎn)過程中能力的變化，糾正訓練模型的方法，有針對性提高模型能力。

比如OpenCompass，它是Meta官方推薦的開源大模型評測框架，利用分布式技術(shù)支持上百個數(shù)據(jù)集的評測，提供了大模型評測的所有技術(shù)細節(jié)，同時給大家提供了統(tǒng)一的測試基準，方便各家模型在公平公正的情況下開展對比。

開源：先賺吆喝再賺錢

對大模型做出全面評價是困難的。除了打榜的方式，有一些廠商通過開源，獲得了巨大的關(guān)注。

開源是一種經(jīng)營策略，需要對自家產(chǎn)品足夠自信。相比之下，敢于放開注冊讓公眾體驗的閉源大模型，要比那些無法體驗的強，開源大模型則又往前邁了一步。第一個被大范圍使用、好評度最高的開源大語言模型，是由Meta在今年2月推出的Llama。

當時全球科技公司都盯著OpenAI，試圖追趕閉源的ChatGPT。但開源讓Meta坐上了牌桌，吸引了大量開發(fā)者，一時名聲大噪。國內(nèi)公司很快跟上，搶抓第一波關(guān)注度。智譜AI、智源研究院、百川智能，是動作最快的三家。

在Llama開源之后，號稱全面對標OpenAI、有著清華背景的智譜AI，迅速在國內(nèi)第一個開源了自己的大模型ChatGLM-6B。這個時間點非常早，當時國內(nèi)廠商的大模型都還沒發(fā)布，百度文心一言兩天后才推出，而王小川的百川智能公司還沒成立。三個月后的6月9日，跟智譜AI有著很深淵源的智源研究院，宣布開源“悟道·天鷹”Aquila。它比智譜AI更進一步——可商用，于是拿下“國內(nèi)首個開源可商用語言大模型”的頭銜。是否支持商用，是判斷模型能力的一個關(guān)鍵指標。GPT 3.5的水平，通常被認為是大模型商用的標準線。

不過，智源是一個非營利機構(gòu)，它更多的用意是為公用發(fā)展提供技術(shù)支持。智源主動開源之后，開源大模型的軍備競賽正式打響。這其中值得一提的是百川智能。作為一家今年4月才成立的初創(chuàng)公司，百川獲得的關(guān)注度甚至超過很多互聯(lián)網(wǎng)大廠。從時間上來看，百川是智源之后第一家開源的創(chuàng)業(yè)公司，且第一個宣布可免費商用。

它開源不可商用的版本時，比智譜AI早九天；后來開源免費可商用的版本時，又比智譜AI早三天。時間點很重要。當時Llama1只被允許用作研究，但市場有傳聞可商用的Llama 2即將開源。百川不僅搶在Llama 2之前，還卡在智譜AI之前宣布了免費可商用，贏得了巨大的關(guān)注度，一周之內(nèi)下載量破百萬。

趙小躍認為，百川在那個時間發(fā)布一個開源模型，作為自己的第一槍，是一個很對的決策?！百嵙艘徊ㄟ汉??！敝С稚逃玫腖lama 2比百川和智譜AI晚了一周，即便如此，它還是在全球引發(fā)巨震。在同等參數(shù)規(guī)模下，Llama 2能力超過所有的開源大模型，是目前全球公認的開源大模型的代表。

因為Llama的帶動，國內(nèi)廠商踩上了開源熱潮的風口。它們急著秀肌肉，爭奪大眾注意力。但從技術(shù)角度，尚不能說明它們就跑在了前面。有觀點認為，開源模型雖多，但大多數(shù)都是從Llama派生出來。簡單來說，就是用了Llama作為基模型，然后選用其它不同的訓練方法微調(diào)。因為Llama原生在中文方面相對較弱，給了國產(chǎn)開源大模型宣傳的發(fā)力點。

6月中旬百川開源第一版Baichuan-7B時，公司只成立剛兩個月。當時有人質(zhì)疑其模型架構(gòu)跟Llama很相似?！敖柚呀?jīng)開源的技術(shù)和方案，百川是站在了巨人的肩膀上?！币晃淮竽Ｐ蛣?chuàng)業(yè)者評價。本質(zhì)上，開源也是一種商業(yè)模式。賺完吆喝后，廠商的目的還是賺錢。

陳冉向「定焦」舉了個例子，開源就像一些化妝品品牌推出試用裝，免費給用戶用，但不會透露配方和成分。用戶試用完如果覺得好想繼續(xù)用，就得付費買商業(yè)版。另外它可能透露配方，如果有廠商想基于這個配方去創(chuàng)造一個新的產(chǎn)品，就需要交授權(quán)費。

百川在9月下旬推出了兩款閉源大模型，API接口對外開放，進入ToB領(lǐng)域，開啟商業(yè)化進程。“它已經(jīng)通過開源賺了一波吆喝，接下來一定會推閉源大模型做商業(yè)化，它最先進的模型是一定不會開源的?！壁w小躍說。

大家都沒有護城河？

“百模大戰(zhàn)”發(fā)展到今天，各家廠商通過各種方式博取關(guān)注度，那么誰做到了真正的領(lǐng)先？

趙小躍認為，從主觀感受層面來看，國內(nèi)的大模型，無論是開源還是閉源，本質(zhì)上沒有核心的技術(shù)代差。因為無論是模型大小，還是數(shù)據(jù)質(zhì)量，大家都沒有飛躍式的突破。

“在GPT3.5的指引下，國內(nèi)廠商只要模型容量達到一定地步，再配合一批高質(zhì)量數(shù)據(jù)，大家都不會太差?！钡鶪PT4相比，技術(shù)代差是存在的。“因為閉源，大家不知道GPT4背后真正的技術(shù)方案是什么，如何把這么大的模型用專家結(jié)構(gòu)訓練出來，目前大家還都在探索?！?/p>

在陳冉看來，國內(nèi)的大語言模型完全原創(chuàng)的較少，有些是在transformer架構(gòu)上做了一個整體調(diào)優(yōu)，本質(zhì)是在算子上做了調(diào)優(yōu)，而沒有本質(zhì)上的改變。還有一些走開源路線的廠商，更多是在中文方面深入研究。大家都有自己的大模型，但本質(zhì)上沒有顯著的區(qū)別，這就是當前國內(nèi)大模型行業(yè)的特點。

某種程度上，這是由行業(yè)階段決定的。國內(nèi)的互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、高?？蒲袡C構(gòu)，真正開始投入大量人力物力做大模型，也就在今年。行業(yè)的技術(shù)路線也還在摸索中，沒有哪家公司建立起護城河。相比純技術(shù)實力方面的比拼，算力和數(shù)據(jù)層面的比拼更能出效果。

“大家更多的精力是花在數(shù)據(jù)和語料上，誰能花錢獲得高質(zhì)量的語料，同時有足夠的算力，誰就能訓練出一個相對好一點的模型?！标惾秸f。

開源讓局面變得更加不可控。去年底ChatGPT亮相后，全球冒出來上百個大模型，但今年Meta開源Llama 2之后，很多模型還沒有投入市場就已經(jīng)過時。就連谷歌的工程師都在內(nèi)部直言稱，谷歌和OpenAI都沒有護城河。大模型更新迭代太快了?！敖裉炷阃瞥鲆粋€大模型，花錢打了榜，有很多人用，可能明天就有個新的模型迅速替代掉?！标惾秸f。

多位業(yè)內(nèi)人士對「定焦」表示，大模型之間真正顯著的區(qū)別，會在具體的用戶場景或B端的業(yè)務(wù)中體現(xiàn)?！艾F(xiàn)實世界里我們評價某個人是專家，是因為他在特定領(lǐng)域很厲害。大模型也一樣，要在領(lǐng)域里建立共識，專業(yè)性一定要放到具體的場景里去體現(xiàn)?！?/p>

王冉說。核心的通用能力是基礎(chǔ)，廠商會根據(jù)自己所在的領(lǐng)域，差異化發(fā)展。“比如我們跟醫(yī)院和律所接觸，他們其實更關(guān)心的是醫(yī)療或法律方面的能力?！壁w小躍說。對于互聯(lián)網(wǎng)巨頭而言，需要考量的因素相對更多。

除了要對外“接單”，巨頭們已經(jīng)開始在內(nèi)部進行大模型的應(yīng)用端部署。比如騰訊的廣告、游戲、社交、會議等業(yè)務(wù)，接入了混元大模型，百度搜索、文庫、百家號等產(chǎn)品早已接入文心大模型，阿里把AI作為各大業(yè)務(wù)板塊的驅(qū)動力。大模型對巨頭內(nèi)部的正面影響究竟有多大，會更難量化評估。

綜合來看，國內(nèi)大模型還處在起跑的混沌階段，一切都在快速變化中。做出一個大模型的技術(shù)壁壘不高，但要做好并真的解決問題，還有很長的路要走。

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

手機改卡密碼怎么修改(手機改卡)

上一篇 2023年11月9日 12:06

蘋果怎么刷青島公交地鐵？“琴島通”公交卡全國通用嗎

下一篇 2023年11月9日 15:01

量子計算機具有什么計算能力？有多牛？特點用途介紹
今天，2023世界制造業(yè)大會在安徽合肥開幕。大會由工業(yè)和信息化部、國務(wù)院國資委、安徽省人民政府等主辦。本次大會一共有7個展館，8萬平方米，參展企業(yè)數(shù)量、展覽面積雙雙創(chuàng)下歷屆之最，參展企業(yè)帶來的展品涵蓋了人工智能、高端裝備、量子科技…
2023年9月21日
0
羊了個羊怎么改省份地區(qū) 羊了個羊地址怎么改注意事項
大家最近打開了朋友圈了嗎，是不是被一款游戲刷爆了，各位是不是在找羊了個羊怎么改省份，大家都知道該游戲是一款消消樂類型的游戲三個圖案連成一個消除，類似大家以前用麻將消除的改版，第一關(guān)…
2022年9月21日
0
支付寶怎么查疫苗接種記錄支付寶疫苗接種信息查詢教程
支付寶作為當下生活的必備軟件，除了基礎(chǔ)的支付功能之外，還可以查詢疫苗接種等服務(wù)，第一時間得知自己的疫苗接種的情況，那大家知道怎么在支付寶上查疫苗接種信息嗎？下面就和小編一起來看看吧…
2022年11月29日
0
尼康Z8全畫幅微單相機發(fā)布單機售價27999元
2023年5月10日，尼康公司宣布推出全畫幅/尼康FX格式微單數(shù)碼相機Z 8。Z 8將尼康旗艦相機Z 9的高級功能和性能濃縮在緊湊輕巧的機身中，采用鎂合金和新型碳纖維復合材料，機身比旗艦級Z 9的機身小約30%。此外無論從高角度或…
2023年5月12日
0
半年融資兩輪，仁芯科技完成Pre-A+輪融資
近日，仁芯科技完成了近億元Pre-A+輪融資，由華山資本、海望資本等投資本輪融資資金將用于在產(chǎn)品持續(xù)研發(fā)、市場推廣以及企業(yè)運營等，加速布局車載芯片市場。仁芯科技成立于2022年2…
2023年9月4日
0
qq兔子氣泡的名字叫什么 qq年會svip7兔子氣泡在哪怎么設(shè)置
　　QQ年會svip7可以設(shè)置聊天氣泡，可以擁有獨一無二的氣泡，很多人想知道QQ年會svip7兔子氣泡叫什么名字，下面跟著小編一起來了解一下這個氣泡的名稱吧。　　QQ年會svip…
2022年7月4日
0
iqooneo8pro詳細配置參數(shù)價格介紹天璣9200+處理器來了！
iQOO Neo8 Pro正式發(fā)布。售價方面，iQOO Neo8 Pro 16GB+256GB到手3099元，16GB+512GB到手3399元，5月31日正式發(fā)售。作為iQOO Neo系列最強機型，iQOO Neo8 Pro首發(fā)…
2023年5月24日
0
微信圖標右下角藍色√什么意思右下角藍色√怎么去掉設(shè)置
華為手機其他手機上的微信圖標略有不一樣，細心的朋友會發(fā)現(xiàn)華為手機微信右下角會有一個藍色的√，那么這個勾勾代表什么意思呢？有什么用呢？是否可以取消呢？來看看吧！微信圖標右下角藍色√…
2022年9月30日
0
“電池”降溫生意跑出一個IPO，年入10億
來源：直通IPO，文/韓文靜在寧德時代的支持下，又一家供應(yīng)商謀求上市。 10月23日，納百川新能源股份有限公司（簡稱“納百川”）申請深交所創(chuàng)業(yè)板上市審核狀態(tài)變更為“已問詢”，國泰…
2023年10月26日
0
女子突遇強風天氣被吹進室內(nèi)滑行
風給廣大地區(qū)帶來了充足的雨水，成為給力的降雨系統(tǒng)，但是臺風也總是帶來各種破壞，那么你知道臺風有什么危害嗎1暴雨臺風有著充足的水汽條件，因此經(jīng)常伴隨暴雨或特大暴雨等強對流天氣，短時間…
2023年6月13日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息

<object id="wjegn"><tt id="wjegn"></tt></object>

<ruby id="wjegn"></ruby>

<object id="wjegn"><menuitem id="wjegn"><th id="wjegn"></th></menuitem></object>