谷歌已更新其隱私政策以確認從互聯(lián)網(wǎng)上獲取公開數(shù)據(jù)來訓練其人工智能模型和服務,包括其聊天機器人 Bard 和現(xiàn)在可以實時生成查詢答案的搜索引擎。
谷歌隱私政策的 PDF 版本中寫道:「谷歌使用信息來改善我們的服務,并開發(fā)惠及我們的用戶和公眾的新產(chǎn)品、功能和技術。例如,我們使用公開可獲取的信息來幫助訓練谷歌的人工智能模型,并構建 Google 翻譯、Bard 和 Cloud AI 等產(chǎn)品和功能?!?/p>
這些變化定義了谷歌在人工智能訓練方面的范圍。此前,該政策只提到了「語言模型」并涉及到 Google 翻譯。但現(xiàn)在的措辭已被修改為涵蓋「AI 模型」,并包括 Bard 和其他在其云平臺上構建的應用系統(tǒng)。
一位谷歌發(fā)言人稱,這次更新并未從根本上改變他們訓練人工智能模型的方式。該發(fā)言人在一份聲明中表示:「我們的隱私政策一直透明地說明谷歌使用公開網(wǎng)絡上的可獲取信息來訓練 Google 翻譯等服務的語言模型。此次更新只是明確了 Bard 等較新的服務也包含在內(nèi)。我們根據(jù)我們的 AI 原則在開發(fā) AI 技術時融入隱私原則和保護措施?!?/p>
多年來,開發(fā)人員一直通過從互聯(lián)網(wǎng)、相冊、圖書、社交網(wǎng)絡、源代碼、音樂和文章等收集訓練數(shù)據(jù)來開發(fā) AI 系統(tǒng)。然而,這個過程是有爭議的,因為這些材料通常受版權、使用條款和許可證的保護,整個過程也導致了訴訟。
有些人對自己的內(nèi)容不僅被用于構建復制其作品的機器學習系統(tǒng)感到不滿,從而可能危及其生計,而且模型的輸出與版權或許可證侵權過于接近,因為其不加修改地重復了這些訓練數(shù)據(jù)。
AI 開發(fā)人員可能會辯稱他們的努力屬于合理使用(fair use)范疇,并且模型的輸出是一種新的作品,實際上并不是原始訓練數(shù)據(jù)的復制。這是一個備受爭議的問題。
例如,Stability AI 就因為從其庫存圖像網(wǎng)站非法收集和濫用數(shù)百萬張圖片來訓練其文本到圖像工具而被 Getty Images 起訴。與此同時,OpenAI 及其所有者微軟也面臨多起訴訟,指控他們不當從互聯(lián)網(wǎng)、「圖書、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個人信息」中獲取「3000 億字」的內(nèi)容,并從公共代碼庫中提取源代碼,以創(chuàng)建 AI 協(xié)作編程工具 GitHub Copilot。
谷歌的發(fā)言人拒絕澄清該廣告和搜索巨頭是否會從公開受版權或許可的數(shù)據(jù)或社交媒體帖子中獲取數(shù)據(jù)來訓練其系統(tǒng)。
現(xiàn)在人們對于如何訓練人工智能模型有了更多了解,一些互聯(lián)網(wǎng)企業(yè)已經(jīng)開始向開發(fā)者收費以獲取其數(shù)據(jù)。例如,Stack Overflow、Reddit 和 Twitter 今年推出了通過 API 訪問其內(nèi)容的收費或新規(guī)定。其他網(wǎng)站如 Shutterstock 和 Getty 則選擇將其圖像授權給 AI 模型構建者,并與 meta 和英偉達等公司合作。