極客號(Daydx.com)8月31日 消息:最近,北大碩士通過DeepSpeed-Chat框架訓(xùn)練了一個RLHF對話模型。他在知乎分享了自己的實踐過程,總結(jié)了原理,代碼以及踩坑與解決方案。
在訓(xùn)練獎勵模型時,作者使用Cohere提供的問答數(shù)據(jù),構(gòu)造了2萬個優(yōu)質(zhì)答案和劣質(zhì)答案的組合,通過排序任務(wù)訓(xùn)練獎勵模型給答案打分。在強化學(xué)習(xí)階段,作者采用Actor-Critic框架,分別訓(xùn)練策略模型、價值模型、參考模型和獎勵模型。學(xué)習(xí)過程包含生成經(jīng)驗和更新模型兩步。
在模型訓(xùn)練過程中,作者分享了一些常見錯誤和解決方法。主要問題有DeepSpeed引發(fā)的生成問題、強制最大長度造成的偏差、Critic loss發(fā)散等。他通過關(guān)閉引擎、修改最大長度、縮放獎勵等方式解決了這些問題。最后作者還嘗試了一些trick來提高模型性能,如歸一化優(yōu)勢、增加策略熵、縮放獎勵等。
通過解決 above 問題,作者最終成功地訓(xùn)練出了自己的RLHF對話模型。本文對RLHF在對話系統(tǒng)中的應(yīng)用進行了較為系統(tǒng)和詳細的介紹,對相關(guān)研究具有很好的參考價值。(感興趣的可以點此查看原文)