極客號(Xqh8.com) 10月26日 消息:研究人員來自麻省理工學院(MIT)、Cohere for AI以及其他11個機構(gòu),他們共同發(fā)布了Data Provenance Platform,旨在應(yīng)對AI領(lǐng)域的數(shù)據(jù)透明危機。這一平臺的推出旨在解決AI模型訓練數(shù)據(jù)集的來源和使用透明度不足的問題,這是當前AI領(lǐng)域亟待解決的挑戰(zhàn)之一。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這個跨機構(gòu)合作的倡議審計和追蹤了近2,000個廣泛使用的微調(diào)數(shù)據(jù)集。這些數(shù)據(jù)集被下載了數(shù)千萬次,被認為是許多自然語言處理(NLP)領(lǐng)域突破的基礎(chǔ)。這一舉措的發(fā)起者包括MIT Media Lab的博士候選人Shayne Longpre和Cohere for AI的負責人Sara Hooker。
這個跨學科倡議的結(jié)果是迄今為止規(guī)模最大的AI數(shù)據(jù)集審計。這些數(shù)據(jù)集首次包含了標簽,用于指示原始數(shù)據(jù)來源、多次重新授權(quán)、創(chuàng)建者和其他數(shù)據(jù)屬性。為了使這些信息實際可操作并易于獲取,他們還開發(fā)了一個名為”Data Provenance Explorer”的互動平臺,允許開發(fā)人員根據(jù)法律和倫理考慮來跟蹤和篩選成千上萬個數(shù)據(jù)集,同時也讓學者和記者探索流行AI數(shù)據(jù)集的組成和數(shù)據(jù)淵源。
與此同時,他們還發(fā)布了一份名為”The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI”(數(shù)據(jù)來源倡議:人工智能中數(shù)據(jù)集許可和歸屬的大規(guī)模審計)的研究報告。報告指出,越來越多的廣泛使用的數(shù)據(jù)集被視為單一整體,而不是一系列數(shù)據(jù)來源,這些數(shù)據(jù)經(jīng)過多次包裝和重新授權(quán)。這種處理方式的缺點在于,它們通常不充分注明數(shù)據(jù)來源和版權(quán)信息,這導(dǎo)致了對訓練數(shù)據(jù)的理解不足。這一不足可能導(dǎo)致訓練數(shù)據(jù)和測試數(shù)據(jù)之間的數(shù)據(jù)泄漏,暴露個人身份信息,導(dǎo)致意外的偏見或行為,最終降低了模型的質(zhì)量。此外,這也帶來了倫理和法律風險,例如,模型發(fā)布與數(shù)據(jù)使用條款可能相互抵觸。這些挑戰(zhàn)都不容易解決,因為在數(shù)據(jù)上訓練模型既昂貴又基本不可逆轉(zhuǎn)。
Data Provenance Platform的推出有望改善AI領(lǐng)域的數(shù)據(jù)透明度,提高數(shù)據(jù)集的質(zhì)量和倫理合規(guī)性,從而推動AI技術(shù)的可持續(xù)發(fā)展。這一舉措也將有助于減少AI模型中的潛在問題,如偏見、數(shù)據(jù)泄漏和法律風險,為AI技術(shù)的廣泛應(yīng)用提供更可靠的基礎(chǔ)。