極客號(Xqh8.com) 8月26日 消息:最近一項針對ChatGPT的研究發(fā)現,其在32門大學課程的測試中,有9門的表現可與學生相比或甚至優(yōu)于學生。
在一項實驗中,紐約大學阿布扎比分校 (NYUAD) 的教師首先被要求提供各自講座中的十個問題,以及每個問題隨機選擇的三名學生的答案。
然后研究人員使用ChatGPT為每個問題生成三個不同的答案。問題直接輸入 ChatGPT,提示中沒有任何其他上下文。
盡管參考文獻中提到了 GPT-4,但從研究中尚不清楚使用的是GPT-3.5還是GPT-4。如果使用GPT-3.5,則使用 GPT-4的 AI 響應質量可能會更好,尤其是在推理方面。
ChatGPT 回復生成后,將其與學生回復混合,并由三位不同的審閱者評分。ChatGPT 在32個科目中有9個科目的表現與人類學生一樣好,甚至更好。這九個科目分別是
數據結構公共政策概論定量合成生物學網絡戰(zhàn)面向對象編程土木工程材料的結構與性能生物心理學氣候/變化管理與組織
在“公共政策概論”課程中,ChatGPT的平均得分是學生的兩倍多。另一方面,學生在需要更高認知技能的數學和經濟任務中表現優(yōu)于 ChatGPT。
研究人員還測試了他們是否能夠使用 OpenAI 的人工智能文本分類器和GPTZero可靠地區(qū)分人類文本和機器文本,該分類器因不可靠而被該公司撤回。
OpenAI 工具將5% 的人類文本錯誤分類為機器文本,而 GPTZero 將18% 的人類文本錯誤分類。考慮到所涉學生可能被錯誤地指控作弊的潛在后果,這是一個災難性的結果。
相反,OpenAI 工具將49% 的機器生成文本識別為人類文本,而 GPTZero 的這一比例為32%。在這兩種情況下,人工智能文本作為人類文本傳遞的可能性都很高。