在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<label id="aemrv"></label>

<dfn id="aemrv"><source id="aemrv"></source></dfn>

田淵棟團(tuán)隊(duì)最新論文解決大模型部署難題推理系統(tǒng)吞吐量提高近30倍！

用戶投稿 ? 2023年12月7日 18:10 ? 熱點(diǎn)

極客號(hào)（Daydx.com）12月7日消息:田淵棟團(tuán)隊(duì)最新發(fā)表的論文解決了大型語言模型在實(shí)際部署中遇到的內(nèi)存和輸入長(zhǎng)度限制的問題，將推理系統(tǒng)的吞吐量提高了近30倍。論文提出了一種實(shí)現(xiàn)KV緩存的新方法，通過識(shí)別和保留重要的tokens，顯著減少了內(nèi)存占用，并在長(zhǎng)輸入序列的任務(wù)中表現(xiàn)良好。

這篇論文的研究對(duì)象是大型語言模型（LLM），該模型在實(shí)際部署中面臨著KV緩存成本昂貴和對(duì)長(zhǎng)序列的泛化能力差的問題。為了解決這些問題，田淵棟團(tuán)隊(duì)提出了一種基于重要tokens的KV緩存逐出策略，通過識(shí)別并保留對(duì)生成結(jié)果有重要貢獻(xiàn)的tokens，顯著減少了內(nèi)存占用，并提高了模型在處理長(zhǎng)輸入序列時(shí)的表現(xiàn)。

論文地址:https://arxiv.org/pdf/2306.14048.pdf

代碼地址:https://github.com/FMInference/H2O

在實(shí)驗(yàn)中，作者使用了OPT、LLaMA和GPT-NeoX等模型驗(yàn)證了他們提出的方法的準(zhǔn)確性和有效性。實(shí)驗(yàn)結(jié)果顯示，通過使用該方法，DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個(gè)推理系統(tǒng)的吞吐量分別提高了29倍、29倍和3倍，且在相同的批量大小下，延遲最多可以減少1.9倍。

通過研究發(fā)現(xiàn)，大部分注意力鍵和值嵌入在生成過程中貢獻(xiàn)較少的價(jià)值，只有一小部分tokens貢獻(xiàn)了大部分的價(jià)值。基于這個(gè)發(fā)現(xiàn)，作者提出了一種基于重要tokens的KV緩存逐出策略，動(dòng)態(tài)保持最近的tokens和重要tokens的平衡。通過使用這種策略，可以顯著減少KV緩存的大小，從而降低了內(nèi)存占用，并提高了模型的推理效率。

綜上所述，田淵棟團(tuán)隊(duì)的最新論文成功解決了大型語言模型在實(shí)際部署中的難題，通過優(yōu)化KV緩存的實(shí)現(xiàn)方法，將推理系統(tǒng)的吞吐量提高了近30倍。這一成果在NeurIPS’23上將進(jìn)行展示，對(duì)于大型語言模型的部署和應(yīng)用具有重要的意義。

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場(chǎng)，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

2012年十大流行歌曲(2012流行歌曲排名)

上一篇 2023年12月7日 18:07

稅費(fèi)是扣除五險(xiǎn)一金后算的嗎(稅費(fèi)是扣除五險(xiǎn)一金后算的嗎)

下一篇 2023年12月7日 18:12

2018年貴州地區(qū)生產(chǎn)總值達(dá)14806.45 一季度貴州地區(qū)生產(chǎn)總值4815.49億元，同比增6.6%
澎湃新聞?dòng)浾?王俊 4月20日上午，貴州省統(tǒng)計(jì)局微信公眾號(hào)“數(shù)說黔景”公布了今年一季度貴州省主要統(tǒng)計(jì)數(shù)據(jù)。消息稱，今年一季度，貴州全省經(jīng)濟(jì)運(yùn)行呈現(xiàn)開局平穩(wěn)、結(jié)構(gòu)趨優(yōu)、質(zhì)效提升的良…
2022年6月27日
0
王者段位怎么分(王者榮耀排位等級(jí))
本文主要講的是王者榮耀排位等級(jí)，以及和王者段位怎么分相關(guān)的知識(shí)，如果覺得本文對(duì)您有所幫助，不要忘了將本文分享給朋友。王者榮耀段位等級(jí)表王者榮耀段位等級(jí)表如下： 2022王者榮耀…
2023年4月1日
0
家用投影儀哪個(gè)牌子的好（投影儀家用性價(jià)比排行榜）
隨著投影技術(shù)的發(fā)展，現(xiàn)在投影儀的體積更小，功能更全，價(jià)格也越來越親民，成為很多用戶的觀影首選設(shè)備。我是袁平，一枚專職數(shù)碼測(cè)評(píng)博主。最近很多粉絲都留言希望我能推薦幾款投影儀，今天就來…
2022年4月21日
0
國(guó)考出成績(jī)了！2023國(guó)考成績(jī)查詢時(shí)間入口(申論分?jǐn)?shù)怎么那么低)
自國(guó)考筆試結(jié)束之后，大家對(duì)于國(guó)考成績(jī)的公布時(shí)間一直非常關(guān)注，近段時(shí)間，關(guān)于“國(guó)考成績(jī)”屢登微博熱搜榜，不過官方一直未透露具體公布時(shí)間。最新消息，現(xiàn)在國(guó)考出成績(jī)了！2023國(guó)考筆試成…
2023年3月15日
0
2023年3月14日是白色情人節(jié)嗎(2023年3月18日是黃道吉日嗎)
情人節(jié)是很多情侶必過的節(jié)日，雖然2月14日是西方情人節(jié)，但國(guó)內(nèi)大部分情侶也會(huì)過。而據(jù)介紹，一個(gè)月后的3月14日則是白色情人節(jié)，那2023年3月14日是白色情人節(jié)嗎？白色情人節(jié)是什么…
2023年3月10日
0
醴陵疫情最新消息今天通報(bào)新增幾例(醴陵疫情最新消息通知)
近日，不少小伙伴都很關(guān)注株洲醴陵疫情，自該地發(fā)現(xiàn)陽性感染者后，從11月5日20時(shí)起，醴陵就實(shí)行了靜默管理?，F(xiàn)在大家都很想知道醴陵疫情的最新情況，那么，醴陵今天通報(bào)新增了幾例陽性呢？…
2022年11月9日
0
殺光所有俄羅斯人？烏情報(bào)頭子放狠話，俄高官事故中險(xiǎn)些喪命
自無人機(jī)突襲克宮之后，俄羅斯又一重要人物遇襲受傷，烏情報(bào)部門負(fù)責(zé)人竟叫囂要“殺死所有的俄羅斯人”！烏高官：要?dú)⑺廊澜绲亩砹_斯人據(jù)極目新聞援引俄新社報(bào)道稱，烏克蘭國(guó)防部情報(bào)總局…
2023年5月10日
0
官方定調(diào):中國(guó)樓市發(fā)生重大變化是什么情況
一直以來，房地產(chǎn)話題都是大家關(guān)注的焦點(diǎn)，最新消息，現(xiàn)在官方定調(diào)，中國(guó)樓市發(fā)生重大變化，具體什么情況呢？24日召開的中共中央政治局會(huì)議在談及房地產(chǎn)市場(chǎng)時(shí)，首次明確提出，適應(yīng)中國(guó)房地產(chǎn)…
2023年7月25日
0
挖呀挖呀挖黃老師一句話,榜一大哥的青春回憶全毀了!她早就懷孕了
當(dāng)你站在風(fēng)口上，就真的能火，就像武漢黃老師一樣，試問現(xiàn)在有幾個(gè)人沒有被挖呀挖呀挖洗腦過？憑著嬌美的容貌，甜甜的聲音，吸引了無數(shù)人的關(guān)注和喜愛，成為2023年“最美”網(wǎng)紅。黃老師現(xiàn)…
2024年1月15日
0
1500千焦是多少大卡(1500千焦是多少大卡高嗎)
1、1500千焦相當(dāng)于200g米飯的熱量1500千焦等于卡，也就是2389千卡，而米飯所含有的熱量大約為116千卡100g，所以1500千焦相當(dāng)于200g米飯的熱量米飯的主要成份是…
2022年11月5日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<div id="atsfu"><small id="atsfu"></small></div>