極客號(hào)(Xqh8.com) 7月21日 消息:據(jù)darkreading報(bào)道,谷歌研究人員已經(jīng)發(fā)現(xiàn)了針對(duì)現(xiàn)實(shí)世界人工智能系統(tǒng)的六種特定攻擊,發(fā)現(xiàn)這些常見(jiàn)的攻擊向量表現(xiàn)出一種獨(dú)特的復(fù)雜性,他們指出,這將需要結(jié)合對(duì)抗性模擬和人工智能專家的幫助來(lái)構(gòu)建一個(gè)堅(jiān)實(shí)的防御。
該公司在本周發(fā)布的一份報(bào)告中透露,其專門的人工智能紅隊(duì)已經(jīng)發(fā)現(xiàn)了這項(xiàng)快速發(fā)展的技術(shù)面臨的各種威脅,主要基于攻擊者如何操縱驅(qū)動(dòng)生成式人工智能產(chǎn)品(如ChatGPT、Google Bard等)的大型語(yǔ)言模型(LLM)。
這些攻擊在很大程度上導(dǎo)致技術(shù)產(chǎn)生意外或甚至惡意驅(qū)動(dòng)的結(jié)果,這可能導(dǎo)致從平凡的后果,如普通人的照片出現(xiàn)在名人照片網(wǎng)站上,到更嚴(yán)重的后果,如安全逃避的網(wǎng)絡(luò)釣魚攻擊或數(shù)據(jù)盜竊。
谷歌的發(fā)現(xiàn)緊隨其發(fā)布安全人工智能框架(SAIF)之后,該公司表示,該框架旨在在為時(shí)已晚之前解決人工智能安全問(wèn)題,因?yàn)樵摷夹g(shù)已經(jīng)經(jīng)歷了快速的采用,產(chǎn)生了新的安全威脅。
現(xiàn)代人工智能系統(tǒng)面臨的 6 種常見(jiàn)攻擊 谷歌識(shí)別出的第一組常見(jiàn)攻擊是提示攻擊,它涉及“提示工程”。這是一個(gè)術(shù)語(yǔ),指的是制作有效的提示,指導(dǎo)LLM執(zhí)行期望的任務(wù)。當(dāng)這種對(duì)模型的影響是惡意的時(shí)候,它可以反過(guò)來(lái)惡意地影響基于LLM應(yīng)用程序的輸出,以一些不期望的方式,研究人員說(shuō)。
一個(gè)例子是,如果有人在一個(gè)基于人工智能的網(wǎng)絡(luò)釣魚攻擊中添加了一個(gè)對(duì)最終用戶不可見(jiàn)的段落,但可以指導(dǎo)人工智能將網(wǎng)絡(luò)釣魚郵件分類為合法。這可能使它繞過(guò)電子郵件反網(wǎng)絡(luò)釣魚保護(hù),并增加網(wǎng)絡(luò)釣魚攻擊成功的機(jī)會(huì)。
該團(tuán)隊(duì)發(fā)現(xiàn)的另一種攻擊是訓(xùn)練數(shù)據(jù)提取,其目標(biāo)是重建LLM使用的逐字訓(xùn)練示例——例如互聯(lián)網(wǎng)的內(nèi)容。
通過(guò)這種方式,攻擊者可以從數(shù)據(jù)中提取機(jī)密信息,如逐字個(gè)人身份信息或密碼。“攻擊者有動(dòng)機(jī)針對(duì)個(gè)性化模型或者在包含個(gè)人身份數(shù)據(jù)上訓(xùn)練的模型來(lái)收集敏感信息”,研究人員寫道。
第三種潛在的人工智能攻擊是對(duì)模型進(jìn)行后門操作,即攻擊者“可能試圖隱蔽地改變模型的行為,以產(chǎn)生特定‘觸發(fā)’詞或特征不正確的輸出,也稱為后門”,研究人員寫道。在這種類型的攻擊中,威脅行為者可以在模型或其輸出中隱藏代碼以進(jìn)行惡意活動(dòng)。
第四種攻擊類型稱為對(duì)抗性示例,是指攻擊者提供給模型一個(gè)輸入,導(dǎo)致一個(gè)“確定性的,但高度意外的輸出”,研究人員寫道。一個(gè)例子是,模型可以顯示一張圖像,在人眼看來(lái)很明顯是一件事,但模型卻識(shí)別為完全不同的東西。這種攻擊可能相當(dāng)溫和,在一個(gè)情況下,有人可以訓(xùn)練模型將他或她自己的照片識(shí)別為一個(gè)被認(rèn)為值得出現(xiàn)在名人網(wǎng)站上的照片。
攻擊者還可以使用數(shù)據(jù)污染攻擊來(lái)操縱模型的訓(xùn)練數(shù)據(jù),以根據(jù)攻擊者的偏好影響模型的輸出——這也可能威脅到軟件供應(yīng)鏈的安全,如果開(kāi)發(fā)人員正在使用人工智能來(lái)幫助他們開(kāi)發(fā)軟件。這種攻擊的影響可能與對(duì)模型進(jìn)行后門操作類似,研究人員指出。
谷歌專門的人工智能紅隊(duì)識(shí)別出的最后一種攻擊類型是數(shù)據(jù)泄露攻擊,其中攻擊者可以復(fù)制模型的文件表示來(lái)竊取敏感的知識(shí)產(chǎn)權(quán)或其他信息。例如,如果一個(gè)模型是用于語(yǔ)音識(shí)別或文本生成的,那么攻擊者可能會(huì)試圖從模型中提取語(yǔ)音或文本信息。