在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    田淵棟團(tuán)隊(duì)最新論文解決大模型部署難題 推理系統(tǒng)吞吐量提高近30倍!

    極客號(hào)(Daydx.com)12月7日 消息:田淵棟團(tuán)隊(duì)最新發(fā)表的論文解決了大型語言模型在實(shí)際部署中遇到的內(nèi)存和輸入長(zhǎng)度限制的問題,將推理系統(tǒng)的吞吐量提高了近30倍。論文提出了一種實(shí)現(xiàn)KV緩存的新方法,通過識(shí)別和保留重要的tokens,顯著減少了內(nèi)存占用,并在長(zhǎng)輸入序列的任務(wù)中表現(xiàn)良好。

    這篇論文的研究對(duì)象是大型語言模型(LLM),該模型在實(shí)際部署中面臨著KV緩存成本昂貴和對(duì)長(zhǎng)序列的泛化能力差的問題。為了解決這些問題,田淵棟團(tuán)隊(duì)提出了一種基于重要tokens的KV緩存逐出策略,通過識(shí)別并保留對(duì)生成結(jié)果有重要貢獻(xiàn)的tokens,顯著減少了內(nèi)存占用,并提高了模型在處理長(zhǎng)輸入序列時(shí)的表現(xiàn)。

    田淵棟團(tuán)隊(duì)最新論文解決大模型部署難題 推理系統(tǒng)吞吐量提高近30倍!

    論文地址:https://arxiv.org/pdf/2306.14048.pdf

    代碼地址:https://github.com/FMInference/H2O

    在實(shí)驗(yàn)中,作者使用了OPT、LLaMA和GPT-NeoX等模型驗(yàn)證了他們提出的方法的準(zhǔn)確性和有效性。實(shí)驗(yàn)結(jié)果顯示,通過使用該方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個(gè)推理系統(tǒng)的吞吐量分別提高了29倍、29倍和3倍,且在相同的批量大小下,延遲最多可以減少1.9倍。

    通過研究發(fā)現(xiàn),大部分注意力鍵和值嵌入在生成過程中貢獻(xiàn)較少的價(jià)值,只有一小部分tokens貢獻(xiàn)了大部分的價(jià)值。基于這個(gè)發(fā)現(xiàn),作者提出了一種基于重要tokens的KV緩存逐出策略,動(dòng)態(tài)保持最近的tokens和重要tokens的平衡。通過使用這種策略,可以顯著減少KV緩存的大小,從而降低了內(nèi)存占用,并提高了模型的推理效率。

    綜上所述,田淵棟團(tuán)隊(duì)的最新論文成功解決了大型語言模型在實(shí)際部署中的難題,通過優(yōu)化KV緩存的實(shí)現(xiàn)方法,將推理系統(tǒng)的吞吐量提高了近30倍。這一成果在NeurIPS’23上將進(jìn)行展示,對(duì)于大型語言模型的部署和應(yīng)用具有重要的意義。

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年12月7日 18:07
    下一篇 2023年12月7日 18:12

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息