在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    OpenAI開源的數(shù)學(xué)數(shù)據(jù)集,中國廠商新成績一舉沖到最前列!

    就在9月16日,國產(chǎn)大模型在權(quán)威推理評測集GSM8K中,首次達(dá)到了80%正確率,大幅領(lǐng)先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

    而且這家廠商在大模型榜單上刷新全球紀(jì)錄,已經(jīng)不是第一次了。

    它背后的公司在風(fēng)起云涌的大模型技術(shù)江湖中,也頻頻被提及,越來越受關(guān)注。

    不賣關(guān)子,它正是天工大模型,由昆侖萬維打造。

    怎么做到的?具體來看。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

    大模型推理能力Benchmark躋身前列

    天工大模型這次一戰(zhàn)成名的,是大模型數(shù)學(xué)推理能力評測基準(zhǔn),GSM8K。

    GSM8K由OpenAI發(fā)布,是一個涵蓋8500個小學(xué)水平高質(zhì)量數(shù)學(xué)題的數(shù)據(jù)集,設(shè)計原則有四:

    高質(zhì)量、高多樣性、中等難度和自然語言解決方案。

    所以這家伙現(xiàn)在一般被用做測試各家大模型推理能力的Benchmark。

    上個月,微軟和中國科學(xué)院聯(lián)合發(fā)布了一項關(guān)于WizardMath的研究結(jié)果,主要在GSM8K和另一個常見數(shù)學(xué)基準(zhǔn)上測試了市面上主流開閉源大模型的性能。

    閉源模型上,拿下最高分的是GPT-4,正確率92%;GPT-3.5的正確率為57.1%。

    開源模型這邊,不同參數(shù)規(guī)模的LLaMA-2最高正確率56.8%,最高分則被微軟的WizardMath-70B拿走,正確率81.6%。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    那么,天工大模型的成績怎么樣?

    正確率80%。

    這個成績,比目前最強(qiáng)數(shù)學(xué)垂域開源模型的WizardMath-70B低了1.6%,與ChatGPT、540B參數(shù)的PaLM-2幾乎持平。

    并且大幅超過GPT-3.5和各個規(guī)模的LLaMA2。

    同時在小米公開的中文數(shù)學(xué)測試集Cmath上,天工大模型平均準(zhǔn)確率為76.8%(ChatGPT74.8%)。

    為了做個驗證,按照慣例,天工大模型和GPT-3.5面臨了來自GSM8K測試集的英文同題考驗。

    Round one

    問:每天,Wendi給每只雞喂三杯混合雞飼料,其中包括種子、黃粉蟲和蔬菜,以幫助它們保持健康。她分三餐給雞喂食。上午,她給雞群喂15杯飼料。下午,她再給雞喂25杯飼料。

    如果Wendi有20只雞,那么一天的最后一餐,她需要給雞喂多少杯飼料?

    天工大模型答,一天的最后一餐中要喂20杯飼料,才能確保雞崽子們一天都吃飽。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    GPT-3.5答,Wendi需要在一天的最后一餐中給雞崽子們喂21杯飼料。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    OK,這一局,GPT-3.5輸了。

    Round two

    問:道費(fèi)爾姐妹帶著從動物收容所領(lǐng)養(yǎng)的7只小貓開車回家時,媽媽打來電話,告訴她們家里的兩只貓剛生了小貓。媽媽說,Patchy貓貓生了三倍于被領(lǐng)養(yǎng)數(shù)量的小貓,而另一只Trixie貓貓生了12只。

    現(xiàn)在道費(fèi)爾一家一共有多少只小貓?

    天工大模型答,當(dāng)然是有40只小貓啦~

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    GPT-3.5答,道費(fèi)爾一家現(xiàn)在共有33只小貓。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    看來第二局還是天工大模型贏了。

    Round3

    問:巨龍高坐在法爾博山上,向1000英尺范圍內(nèi)的任何東西瘋狂噴火。波莉可以將壓制巨龍的武器投擲400英里,但當(dāng)她拿著藍(lán)寶石時,能比不拿寶石時把標(biāo)槍扔得遠(yuǎn)三倍。

    如果拿著寶石,波莉能站在龍焰射程之外多遠(yuǎn)的地方,用金標(biāo)槍擊中龍?

    天工大模型給出的解題思路如下,并且生成答案為200英尺。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    GPT-3.5給出的解題思路也擺在這,最后答案也是200英尺。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    這次二位打成了平局。

    但是可以看到,相比GPT-3.5,天工大模型的解題思路更簡單直接,解題步驟也更少更短。

    一般來說,目前主流大模型們最近不太流行公開評測結(jié)果,但昆侖萬維放話了:

    更重要的是,天工大模型允許研究人員、開發(fā)者申請API,對上述結(jié)果進(jìn)行驗證。

    PS申請方法:

    提供“姓名”“手機(jī)號”“所屬機(jī)構(gòu)/單位”,發(fā)送至官方郵箱neice@kunlun-inc.com進(jìn)行申請。

    若通過,三個工作日內(nèi)將收到回復(fù)郵件,內(nèi)含測試API及相關(guān)信息。

    (截止時間為9月27日0點(diǎn))

    多個榜單躋身前列

    除了GSM8K,另一個推理評測基準(zhǔn)Humaneval,以及兩個通識評測基準(zhǔn)MMUL、C-eval上,天工大模型也有出色表現(xiàn)。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    △根據(jù)公開測試數(shù)據(jù)搜集整理

    Humaneval同樣出自O(shè)penAI,是OpenAI為了評估Codex模型的有效性而創(chuàng)建的數(shù)據(jù)集。

    通過這個數(shù)據(jù)集,研究人員可以對Codex模型進(jìn)行評估,并了解其在代碼生成方面的準(zhǔn)確性和效果。

    在這個數(shù)據(jù)集上,天工大模型成績是37.2%。

    MMLU是UC伯克利等打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會科學(xué)等領(lǐng)域的57個科目。

    其主要目標(biāo),是對模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。天工大模型的成績是65%。

    C-eval評測基準(zhǔn)由上海交大、清華以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是一個面向中文語言模型的綜合考試評測集,覆蓋了52個來自不同行業(yè)領(lǐng)域的學(xué)科。

    天工大模型的得分為65,超過了GPT-3.5的54.4的成績。

    成績亮眼的天工大模型,發(fā)布在今年4月。

    其AI生成能力可滿足文案創(chuàng)作、知識問答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。

    4月發(fā)布,9月能取得醬紫的成績,昆侖萬維是怎么飼養(yǎng)天工大模型這匹黑馬的?

    先拿模型實力來說話。

    這是一個雙千億大模型(指天工擁有千億預(yù)訓(xùn)練基座模型和千億RLHF模型。),目前版本最高支持1萬字以上文本對話,實現(xiàn)20輪次以上用戶交互。

    二者的“強(qiáng)強(qiáng)聯(lián)手”之下,天工大模型的優(yōu)勢便凸顯了出來。

    而模型層之外,為大模型積攢實力的無外乎算法、算力、數(shù)據(jù)三大件。

    算法層方面,天工大模型也有自己的秘籍。

    通常來說,市面上大模型們普遍采用Transformer架構(gòu)。在此基礎(chǔ)上,天工團(tuán)隊首次引入了蒙特卡洛搜索樹算法(AlphaGo背后也是這算法)。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    再說天工大模型背后的算力,基于中國最大的GPU集群之一。

    強(qiáng)勁算力鼎力支持的,是天文數(shù)字版的數(shù)據(jù)量——按照借助“開源力量”的策略,天工從數(shù)十萬億的數(shù)據(jù)中,最終清洗、篩選出了近3萬億單詞的數(shù)據(jù)。

    現(xiàn)在,天工大模型在推理、通識多個榜單開花,可以想見因為背后算力、算法、數(shù)據(jù)扎實儲備,天工大模型擁有的已經(jīng)不是模型規(guī)模優(yōu)勢,技術(shù)創(chuàng)新和推理性能方面,也有了新突破。

    國產(chǎn)大模型繞不過的狠角色

    其實,推理能力大幅超過GPT-3.5和LLaMA2,已經(jīng)不是昆侖萬維攜天工大模型第一次拿成績炸場。

    不久之前,天工大模型多模態(tài)團(tuán)隊的Skywork-MM用了大約50M的圖文數(shù)據(jù),以遠(yuǎn)小于其他大模型的數(shù)據(jù)量(>100M),登頂了多模態(tài)榜單。

    國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評測榜第一梯隊

    △MME感知榜第一,認(rèn)知榜第二,總榜第一

    昆侖萬維另一則引得眾人矚目的新聞,是AI大牛顏水成的加入。

    他出任天工智能聯(lián)席CEO、2050全球研究院院長,將在新加坡、倫敦、硅谷三地建立2050全球研究院的研究中心,并逐步開展幾個領(lǐng)域的研究:

    下一代Foundation Model的基礎(chǔ)研究和研發(fā);

    Agent的研發(fā)和智能體進(jìn)化的研究;

    生物智能等前沿技術(shù)領(lǐng)域的探索。

    顏水成道出加盟昆侖萬維的原因:

    大模型潮流,浩浩蕩蕩。

    今年以來國產(chǎn)大模型的發(fā)展勢頭迅猛,吸引越來越多的人才加入其中,由此助力各家大模型不斷地迭代升級,涌現(xiàn)出更強(qiáng)大的能力,適配更廣泛的應(yīng)用場景。

    昆侖萬維在大模型的變革中,戰(zhàn)略重視,動作頻頻,而且也有業(yè)務(wù)場景。

    可以不夸張地說一句,昆侖萬維和它家的天工大模型,已經(jīng)是大模型江湖中,一個繞不過去的狠角色了。

    —完—

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年9月18日 21:19
    下一篇 2023年9月18日 21:19

    相關(guān)推薦

    • 遠(yuǎn)房親戚結(jié)婚媽媽讓女兒隨禮2000 女兒:真的不理解

      近日 話題#媽媽堅持讓女子婚禮隨2千# 沖上熱搜 “隨份子”這件事 再度引起網(wǎng)友們的討論 媽媽:朋友隨2000,關(guān)系好的5000 山東一女子表示:自己一直秉持著同事吃飯隨600,不…

      2023年10月6日
    • 大閘蟹怎么吃 大閘蟹怎么保存

      大閘蟹味道鮮美,肉質(zhì)細(xì)膩是什么東西?最喜歡吃的是什么?是咸淡有無些人看到張牙舞爪的大閘蟹,卻不知道應(yīng)該怎么吃,接下來給大家介紹大閘蟹的食用方法,同時也會讓大家了解大閘蟹怎么保存。 …

      2022年5月1日
    • 支付寶罰息能不能掛賬或減免(支付寶罰息能不能申請取消)

      支付寶上為大家提供了不少信貸產(chǎn)品服務(wù),尤其對于很多資金不充裕的小伙伴來說,可以開通支付寶上的借唄、花唄等來使用,只要按時還款就沒有太大問題,還能提升個人信用價值。那么,如果出現(xiàn)支付…

      2023年4月22日
    • 國企轉(zhuǎn)賬私人賬戶近6億

      最近,媒體發(fā)布了一篇關(guān)于知名打假人王海舉報國企存在涉嫌國有資產(chǎn)流失的文章。根據(jù)這一報道,王海指控國企將數(shù)十億元人民幣轉(zhuǎn)賬至個人賬戶,涉及金額近60億。這一舉報引起了社會廣泛關(guān)注,尤…

      2023年10月11日
    • 新冠感染者為什么不能居家隔離 什么人會被要求居家隔離

      相信大家都發(fā)現(xiàn)了,有許多人在被確診之后便會帶去相關(guān)地點(diǎn)隔離,有些人卻可以居家隔離,為什么新冠感染者不可以居家隔離呢?什么人會被要求居家隔離?快來和小編一起詳細(xì)了解一下吧。 新冠感染…

      2022年7月26日
    • 拜登悄然邀請奧巴馬幫助制定人工智能戰(zhàn)略

      極客號(Xqh8.com) 11月3日 消息:據(jù)白宮助手透露,過去五個月以來,前總統(tǒng)奧巴馬秘密向白宮提供了關(guān)于人工智能戰(zhàn)略的建議,并在總統(tǒng)喬?拜登的請求下與科技公司進(jìn)行了幕后合作,…

      2023年11月3日
    • 清華大學(xué):女生喝奶茶更易上癮并導(dǎo)致抑郁焦慮

      快科技10月3日消息,對于當(dāng)代不少年輕人來說,奶茶是不可少的飲品,一天不喝就渾身難受。 不過,奶茶里面的熱量除了帶來物理攻擊發(fā)胖以外,也因含有大量糖分而產(chǎn)生一定的魔法傷害。 近日,…

      2023年10月3日
    • 青島今日起哪些地方封閉最新封控范圍(青島今日商務(wù)樓有哪些公司)

      最近幾天,青島疫情的防控形勢比較嚴(yán)峻,目前新增陽性病例主要集中在市北區(qū),該地區(qū)當(dāng)前已經(jīng)新增了不少高中風(fēng)險區(qū)了。據(jù)疫情最新消息,今天青島又新增多個高中風(fēng)險區(qū),那么青島今日起哪些地方封…

      2022年11月8日
    • wifi和wlan的區(qū)別,你知道嗎 WiFi和WLAN原來區(qū)別這么大!今天可算明白了

      我們通常上網(wǎng)的時候會說連接WiFi,如果注意到無線網(wǎng)絡(luò)的名稱就會發(fā)現(xiàn),手機(jī)的連接顯示是WLAN。 來源:中國電信 END

      2022年6月28日
    • 今晚,許家印終于又露面了

      作者 李逗 編輯 韓忠強(qiáng) 許家印終于出現(xiàn)了。 據(jù)《21世紀(jì)經(jīng)濟(jì)報道》,恒大集團(tuán)于12月2日晚間7時召開保交樓專題會議,董事會主席許家印出席并講話。 而在12月2日午間,一條有關(guān)恒大…

      2022年12月4日

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息