本文概要:
1. IBM 研究表明,容易通過欺騙大型語言模型如 GPT-4來生成惡意代碼或提供虛假安全建議。
2. 研究人員發(fā)現(xiàn),只需要英語基礎(chǔ)知識和對模型訓(xùn)練數(shù)據(jù)的一些背景知識就能輕松欺騙 AI 聊天機(jī)器人。
3. 不同的 AI 模型對欺騙的敏感性有所差異,其中 GPT-3.5和 GPT-4更容易被欺騙。
極客號(Daydx.com)8月10日 消息:IBM 的一項新研究表明,通過欺騙大型語言模型如 GPT-4,可以輕松生成惡意代碼或提供虛假安全建議。
研究人員表示,只需要一定的英語基礎(chǔ)知識和對模型訓(xùn)練數(shù)據(jù)的了解,就能夠欺騙 AI 聊天機(jī)器人。
他們創(chuàng)建了一種游戲模式,讓用戶無法退出,進(jìn)而讓機(jī)器人繼續(xù)提供虛假信息或生成惡意代碼。
研究人員認(rèn)為,這些新發(fā)現(xiàn)的漏洞對于大型語言模型的威脅程度是中等的。然而,如果黑客將這些模型釋放到互聯(lián)網(wǎng)上,聊天機(jī)器人可能被用來提供危險的安全建議或收集用戶的個人信息。
根據(jù)這項研究,并非所有人工智能模型都同樣容易受到操縱。其中 GPT-3.5和 GPT-4更容易被欺騙,而 Google 的 Bard 和 Hugging Face 模型則更不容易被欺騙。這種差異可能與訓(xùn)練數(shù)據(jù)和每個系統(tǒng)的規(guī)格有關(guān)。
最近,安全研究人員在暗網(wǎng)市場上發(fā)現(xiàn)了名為 “FraudGPT” 和 “WormGPT” 的聊天機(jī)器人,據(jù)稱它們是根據(jù)惡意軟件示例進(jìn)行訓(xùn)練的大型語言模型。