在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    昨天(8月25日)的我:在代碼生成方面開源 LLM 將在幾個月內(nèi)擊敗 GPT-4?,F(xiàn)在的我:實際上是今天。

    昨天,meta 開源專攻代碼生成的基礎(chǔ)模型Code Llama,可免費用于研究以及商用目的。

    Code Llama 系列模型有三個參數(shù)版本,參數(shù)量分別為7B、13B 和34B。并且支持多種編程語言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

    meta 提供的 Code Llama 版本包括:

    Code Llama,基礎(chǔ)代碼模型;

    Code Llama-Python,Python 微調(diào)版;

    Code Llama-Instruct,自然語言指令微調(diào)版。

    就其效果來說,Code Llama 的不同版本在 Humaneval 和 MBPP 數(shù)據(jù)集上的一次生成通過率(pass@1)都超越 GPT-3.5。

    此外,Code Llama 的「Unnatural」34B 版本在 Humaneval 數(shù)據(jù)集上的 pass@1接近了 GPT-4(62.2% vs67.0%)。不過 meta 沒有發(fā)布這個版本,但通過一小部分高質(zhì)量編碼數(shù)據(jù)的訓(xùn)練實現(xiàn)了明顯的效果改進。

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    圖源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

    一天剛過,就有研究者向 GPT-4發(fā)起了挑戰(zhàn)。他們來自 Phind(一個組織,旨在構(gòu)造一款為開發(fā)人員而生的AI 搜索引擎),該研究用微調(diào)的 Code Llama-34B 在 Humaneval 評估中擊敗了 GPT-4。

    Phind 聯(lián)合創(chuàng)始人 Michael Royzen 表示:「這只是一個早期實驗,旨在重現(xiàn)(并超越)meta 論文中的「Unnatural Code Llama」結(jié)果。將來,我們將擁有不同 CodeLlama 模型的專家組合,我認為這些模型在現(xiàn)實世界的工作流程中將具有競爭力。」

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    兩個模型均已開源:

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    研究者在 Huggingface 上發(fā)布了這兩個模型,大家可以前去查看。

    Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1

    Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

    接下來我們看看這項研究是如何實現(xiàn)的。

    微調(diào) Code Llama-34B 擊敗 GPT-4

    我們先看結(jié)果。這項研究用 Phind 內(nèi)部數(shù)據(jù)集對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調(diào),分別得到兩個模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1。

    新得到的兩個模型在 Humaneval 上分別實現(xiàn)了67.6% 和69.5% pass@1。

    作為比較,CodeLlama-34B pass@1為48.8%;CodeLlama-34B-Python pass@1為53.7%。

    而 GPT-4在 Humaneval 上 pass@1為67%(OpenAI 在今年3月份發(fā)布的「GPT-4Technical Report」中公布的數(shù)據(jù))。

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    圖源:https://ai.meta.com/blog/code-llama-large-language-model-coding/

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    圖源:https://cdn.openai.com/papers/gpt-4.pdf

    談到微調(diào),自然少不了數(shù)據(jù)集,該研究在包含約8萬個高質(zhì)量編程問題和解決方案的專有數(shù)據(jù)集上對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調(diào)。

    該數(shù)據(jù)集沒有采用代碼補全示例,而是采用指令 – 答案對,這與 Humaneval 數(shù)據(jù)結(jié)構(gòu)不同。之后該研究對 Phind 模型進行了兩個 epoch 的訓(xùn)練,總共有約16萬個示例。研究者表示,訓(xùn)練中沒有使用 LoRA 技術(shù),而是采用了本地微調(diào)。

    此外,該研究還采用了 DeepSpeed ZeRO3和 Flash Attention2技術(shù),他們在32個 A100-80GB GPU 上、耗時三個小時,訓(xùn)練完這些模型,序列長度為4096個 token。

    此外,該研究還將 OpenAI 的去污染(decontamination)方法應(yīng)用于數(shù)據(jù)集,使模型結(jié)果更加有效。

    眾所周知,即便是非常強大的 GPT-4,也會面臨數(shù)據(jù)污染的困境,通俗一點的講就是訓(xùn)練好的模型可能已經(jīng)接受評估數(shù)據(jù)的訓(xùn)練。

    這個問題對 LLM 非常棘手,舉例來說,在評估一個模型性能的過程中,為了進行科學(xué)可信的評估,研究者必須檢查用于評估的問題是否在模型的訓(xùn)練數(shù)據(jù)中。如果是的話,模型就可以記住這些問題,在評估模型時,顯然會在這些特定問題上表現(xiàn)更好。

    這就像一個人在考試之前就已經(jīng)知道了考試問題。

    為了解決這個問題,OpenAI 在公開的 GPT-4技術(shù)文檔《 GPT-4Technical Report 》中披露了有關(guān) GPT-4是如何評估數(shù)據(jù)污染的。他們公開了量化和評估這種數(shù)據(jù)污染的策略。

    具體而言,OpenAI 使用子串匹配來測量評估數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)之間的交叉污染。評估和訓(xùn)練數(shù)據(jù)都是通過刪除所有空格和符號,只保留字符(包括數(shù)字)來處理的。

    對于每個評估示例,OpenAI 隨機選擇三個50個字符的子字符串(如果少于50個字符,則使用整個示例)。如果三個采樣的評估子字符串中的任何一個是處理后的訓(xùn)練樣例的子字符串,則確定匹配。

    這將產(chǎn)生一個受污染示例的列表,OpenAI 丟棄這些并重新運行以獲得未受污染的分數(shù)。但這種過濾方法有一些局限性,子串匹配可能導(dǎo)致假陰性(如果評估和訓(xùn)練數(shù)據(jù)之間有微小差異)以及假陽性。因而,OpenAI 只使用評估示例中的部分信息,只利用問題、上下文或等效數(shù)據(jù),而忽略答案、回應(yīng)或等效數(shù)據(jù)。在某些情況下,多項選擇選項也被排除在外。這些排除可能導(dǎo)致假陽性增加。

    關(guān)于這部分內(nèi)容,感興趣的讀者可以參考論文了解更多。

    論文地址:https://cdn.openai.com/papers/gpt-4.pdf

    不過,Phind 在對標 GPT-4時使用的 Humaneval 分數(shù)存在一些爭議。有人說,GPT-4的最新測評分數(shù)已經(jīng)達到了85%。但 Phind 回復(fù)說,得出這個分數(shù)的相關(guān)研究并沒有進行污染方面的研究,無法確定 GPT-4在接受新一輪測試時是否看到過 Humaneval 的測試數(shù)據(jù)。再考慮到最近一些有關(guān)「GPT-4變笨」的研究,所以用原始技術(shù)報告中的數(shù)據(jù)更為穩(wěn)妥。

    發(fā)布一天,Code Llama代碼能力突飛猛進,微調(diào)版HumanEval得分超GPT-4

    不過,考慮到大模型評測的復(fù)雜性,這些測評結(jié)果能否反映模型的真實能力依然是一個有爭議的問題。大家可以下載模型后自行體驗。

    參考鏈接:

    https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/

    https://www.phind.com/blog/code-llama-beats-gpt4

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    用戶投稿
    上一篇 2023年8月27日 12:16
    下一篇 2023年8月27日 12:16

    相關(guān)推薦

    • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

      收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時候總會去看,好像如果這個夏天沒有看這個電視劇,夏天好像就沒有到來。可見這部電視劇對于…

      2024年1月24日
    • 液壓機械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

      液壓機是一種以液體為工作介質(zhì)的重要機械設(shè)備,其核心功能是傳遞能量,實現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

      2024年1月24日
    • 湖南暴雪已致1萬多人受災(zāi)

      據(jù)@湖南氣象 ,22日7時至23日7時,湘中、湘南出現(xiàn)大到暴雪,長沙(瀏陽)、株洲(醴陵、茶陵)等13個縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個縣市…

      2024年1月24日
    • 落馬貪官退贓像“割肉”,詢問能不能少交點

      “就像割我身上的肉一般,會讓我痛不欲生?!?24日,中央紀委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴重違紀違法案的剖析。信奉金錢至上的李慶明惜財…

      2024年1月24日
    • 中國gdp排行榜城市(中國gdp排行榜)

      中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

      2024年1月24日
    • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

      財聯(lián)社1月24日訊(編輯 卞純)全球日用消費品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財季,其高端護膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

      2024年1月24日
    • 呼和浩特白塔機場通報“保潔員占母嬰室吃飯”:涉事人已被辭退

      呼和浩特白塔機場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 原標題: 呼和浩特白塔機場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機場 消息,呼和浩…

      2024年1月24日
    • 退休職工舉報局長被判刑,被舉報人卻提級退休把人看懵了

      文|龍之朱 又見錯抓錯判上了熱搜。 據(jù)媒體報道,從2016年3月起,安徽宿州市碭山縣農(nóng)機局退休職工李平實名向紀檢部門舉報局長王超經(jīng)濟問題,均石沉大海。 2017年7月,李平夫婦及親…

      2024年1月24日
    • 6寸蛋糕用5斤車厘子店家道歉

      【#6寸蛋糕用5斤車厘子店家道歉#:客服能力不足,多報了2斤車厘子】#遇到商家虛假宣傳你會怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車厘子引熱議。 1月22日,涉事店家就“6寸…

      2024年1月24日
    • 格蘭芬多院徽簡筆畫(格蘭芬多院徽)

      哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

      2024年1月24日

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息