在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    北大碩士基于DeepSpeed-Chat成功訓(xùn)練RLHF對話模型

    極客號(Daydx.com)8月31日 消息:最近,北大碩士通過DeepSpeed-Chat框架訓(xùn)練了一個RLHF對話模型。他在知乎分享了自己的實踐過程,總結(jié)了原理,代碼以及踩坑與解決方案。

    在訓(xùn)練獎勵模型時,作者使用Cohere提供的問答數(shù)據(jù),構(gòu)造了2萬個優(yōu)質(zhì)答案和劣質(zhì)答案的組合,通過排序任務(wù)訓(xùn)練獎勵模型給答案打分。在強化學(xué)習(xí)階段,作者采用Actor-Critic框架,分別訓(xùn)練策略模型、價值模型、參考模型和獎勵模型。學(xué)習(xí)過程包含生成經(jīng)驗和更新模型兩步。

    北大碩士基于DeepSpeed-Chat成功訓(xùn)練RLHF對話模型

    在模型訓(xùn)練過程中,作者分享了一些常見錯誤和解決方法。主要問題有DeepSpeed引發(fā)的生成問題、強制最大長度造成的偏差、Critic loss發(fā)散等。他通過關(guān)閉引擎、修改最大長度、縮放獎勵等方式解決了這些問題。最后作者還嘗試了一些trick來提高模型性能,如歸一化優(yōu)勢、增加策略熵、縮放獎勵等。

    通過解決 above 問題,作者最終成功地訓(xùn)練出了自己的RLHF對話模型。本文對RLHF在對話系統(tǒng)中的應(yīng)用進行了較為系統(tǒng)和詳細的介紹,對相關(guān)研究具有很好的參考價值。(感興趣的可以點此查看原文)

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年8月31日 18:14
    下一篇 2023年8月31日 18:14

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息