自動(dòng)理解人際對話的應(yīng)用通常涉及與真實(shí)世界數(shù)據(jù)中的私人信息相關(guān)的挑戰(zhàn),例如呼叫中心或臨床對話。處理受保護(hù)的數(shù)據(jù)還會增加注釋的成本,限制技術(shù)的發(fā)展。
為了應(yīng)對這些挑戰(zhàn),微軟近日聯(lián)合華盛頓大學(xué)研發(fā)團(tuán)隊(duì)發(fā)布論文,公布了一款名為 DIALGEN 的產(chǎn)品,這是一種循環(huán)半自動(dòng)對話生成框架。
DIALGEN 使用一個(gè)語言模型(ChatGPT),可以按照模式和風(fēng)格規(guī)范生成流暢的對話文本,通過迭代生成子對話并使用人類反饋來糾正不一致之處或改變對話的流程,從而生成復(fù)雜的對話。在以對話狀態(tài)跟蹤為框架的結(jié)構(gòu)化總結(jié)代理——客戶信息收集呼叫的實(shí)驗(yàn)中,展示了 DIALGEN 數(shù)據(jù)可以顯著提高模型性能。
DIALGEN 論文頁面:https://huggingface.co/papers/2307.07047