在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    新微調(diào)方法LongLoRA可低成本提升LLM上下文理解能力

    極客號(Xqh8.com) 9月26日 消息:近日,麻省理工學(xué)院(MIT)與香港中文大學(xué)聯(lián)手開發(fā)了一項(xiàng)名為LongLoRA的新微調(diào)方法,為大型預(yù)訓(xùn)練語言模型(LLM)的發(fā)展提供了全新的途徑。這一方法被設(shè)計(jì)用來增強(qiáng)LLM對上下文的理解能力,而無需過多的計(jì)算資源,為經(jīng)濟(jì)型超大LLM的構(gòu)建鋪平了道路。

    LLM在自然語言處理領(lǐng)域發(fā)揮著巨大的作用,但通常需要巨大的計(jì)算資源來進(jìn)行訓(xùn)練。文章指出,訓(xùn)練一個(gè)具有8192長度上下文的模型,相比于2048長度上下文,需要16倍的計(jì)算資源。而上下文長度實(shí)際上代表了LLM在回應(yīng)給定提示時(shí)對整個(gè)上下文的清晰理解能力,這對于模型的性能至關(guān)重要。

    新微調(diào)方法LongLoRA可低成本提升LLM上下文理解能力

    圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

    LongLoRA方法的創(chuàng)新之處在于研究人員采用了兩種關(guān)鍵方法來拓展LLM的上下文理解能力。首先,他們采用了稀疏本地關(guān)注,具體是“shift short attention(S2-Attn)”方法,通過這一方法在Fine-tuning過程中,高效地實(shí)現(xiàn)了上下文的拓展,同時(shí)保持了與標(biāo)準(zhǔn)關(guān)注機(jī)制相似的性能水平。

    其次,研究人員重新審視了參數(shù)高效調(diào)優(yōu)策略,發(fā)現(xiàn)結(jié)合可訓(xùn)練的嵌入和標(biāo)準(zhǔn)化方法的LoRA在上下文擴(kuò)展方面非常有效。LongLoRA在多個(gè)任務(wù)中都獲得了強(qiáng)大的實(shí)驗(yàn)結(jié)果,使用了LLaMA2模型,從7B/13B到70B不等。這一方法可以將模型的上下文從4k擴(kuò)展到100k,適用于LLaMA27B,或者從32k擴(kuò)展到LLaMA270B,而僅需要一臺8× A100機(jī)器。值得注意的是,LongLoRA保持了原始模型架構(gòu),并與各種現(xiàn)有技術(shù)兼容。

    為了提高LongLoRA方法的實(shí)用性,研究團(tuán)隊(duì)還創(chuàng)建了LongQA數(shù)據(jù)集,用于監(jiān)督Fine-tuning,包括超過3,000個(gè)問題-答案對,其中包含了詳細(xì)的上下文。

    研究的關(guān)鍵發(fā)現(xiàn)包括對長序列語言建模的評估,研究發(fā)現(xiàn),通過更長的上下文訓(xùn)練,模型的性能得到了提升,這顯示了他們Fine-tuning方法的有效性。另外,研究還探討了這些模型在單臺機(jī)器上能夠處理的最大上下文長度,發(fā)現(xiàn)即使在較小的上下文長度下,模型仍然表現(xiàn)出色。此外,研究還進(jìn)行了基于檢索的評估,測試了模型在尋找長對話中特定主題的任務(wù)中的表現(xiàn),結(jié)果顯示,這些模型在某些情況下甚至優(yōu)于同類競爭模型,并且更高效地適應(yīng)了開源數(shù)據(jù)。

    最近的討論中,關(guān)于LLaMA和Falcon等語言模型的性能已經(jīng)開始超越了更大模型(如GPT-4或PaLM),焦點(diǎn)逐漸從增加模型參數(shù)數(shù)量轉(zhuǎn)向了上下文令牌數(shù)量或上下文長度的考慮。文章還引用了一項(xiàng)研究,指出與常見誤解相反,較長的輸入文本并不總是導(dǎo)致更好的輸出。實(shí)際上,在將較長的文章輸入模型(例如2000字)時(shí),模型通常只能理解前700-800字的內(nèi)容,之后生成的回應(yīng)可能會變得不太連貫。這一現(xiàn)象類似于人類記憶的工作方式,信息的開頭和結(jié)尾通常比中間部分更容易被記住。

    LongLoRA方法的推出為經(jīng)濟(jì)型超大LLM的發(fā)展提供了新的路徑,通過優(yōu)化上下文理解能力,降低了訓(xùn)練成本,有望推動(dòng)自然語言處理領(lǐng)域的進(jìn)一步發(fā)展。

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    用戶投稿
    上一篇 2023年9月26日 18:14
    下一篇 2023年9月26日 18:14

    相關(guān)推薦

    • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

      收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會去看,好像如果這個(gè)夏天沒有看這個(gè)電視劇,夏天好像就沒有到來。可見這部電視劇對于…

      2024年1月24日
    • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

      液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

      2024年1月24日
    • 湖南暴雪已致1萬多人受災(zāi)

      據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長沙(瀏陽)、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

      2024年1月24日
    • 落馬貪官退贓像“割肉”,詢問能不能少交點(diǎn)

      “就像割我身上的肉一般,會讓我痛不欲生。” 24日,中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…

      2024年1月24日
    • 中國gdp排行榜城市(中國gdp排行榜)

      中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

      2024年1月24日
    • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

      財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

      2024年1月24日
    • 呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

      呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機(jī)場 消息,呼和浩…

      2024年1月24日
    • 退休職工舉報(bào)局長被判刑,被舉報(bào)人卻提級退休把人看懵了

      文|龍之朱 又見錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

      2024年1月24日
    • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

      【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

      2024年1月24日
    • 格蘭芬多院徽簡筆畫(格蘭芬多院徽)

      哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

      2024年1月24日

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息