關于案例背景
嗶哩嗶哩,作為中國Z世代高度聚集的綜合性視頻平臺,匯聚了2.72億月活用戶。也就是說每兩個中國的年輕人中,至少有一位是B站的用戶。每月,在B站有超過325萬創(chuàng)作者,上傳、分享1100萬則視頻作品,內(nèi)容涵蓋超過200萬個文化標簽,7000個核心圈層,囊括了Z世代青年各個興趣圈層的視頻類別和內(nèi)容,并通過彈幕、加評的模式鼓勵用戶產(chǎn)生更深入的社交互動。
平臺上豐富的視聽內(nèi)容正逐步成為兒童上網(wǎng)學習、娛樂的重要選擇之一??紤]到兒童的心智發(fā)育尚未完善,缺乏應對網(wǎng)絡上不良信息的能力和意識,平臺從保護、賦能的角度出發(fā),以公平和非歧視為原則,在保護兒童的安全,支持兒童的發(fā)展上,通過人工智能技術和手段對社區(qū)中的不良信息進行監(jiān)測和處理,并持續(xù)建設健全專業(yè)的團隊對不良信息進行系統(tǒng)性的防控和治理,從而創(chuàng)造一個促進兒童友好型人工智能的網(wǎng)絡環(huán)境。
關于技術方案的具體措施
作為一家內(nèi)容平臺,嗶哩嗶哩平臺利用人工智能技術識別和干預社區(qū)中的“軟色情類”與“人身攻擊類”不良信息,降低對兒童的負面影響。同時,利用人工智能“優(yōu)選彈幕”技術,為兒童營造一個更健康、積極、和諧,更為正面的彈幕觀看環(huán)境。具體而言,對于負向信息包含“軟色情類信息”以及“人身攻擊類信息”等兩個主要模塊,對于正向信息包含“彈幕優(yōu)選”模塊。
圖1 彈幕系統(tǒng)架構圖
其中,在關鍵技術方面,首先“軟色情類”不良信息處理模塊。識別并處理彈幕軟色情的文本,存在三個主要的技術難點。第一,彈幕的文本較短,傳統(tǒng)的機器學習模型很難在很短的內(nèi)容上獲取學習到足夠的特征,對于文本的語義識別難度較大;第二,軟色情的評判標準難以統(tǒng)一,不同用戶對于軟色情文本的容忍程度和認知程度不一,相同文本內(nèi)容在不同場景下也可能存在不同的含義;第三,軟色情信息分布失衡,在所有的彈幕中軟色情文本內(nèi)容的占比很低且較隱晦,樣本類別的分布失衡導致軟色情文本識別難度加大。針對技術難點,選擇Transformer的文本分類模型(圖1),搭建“軟色情類”不良信息的處理模塊。
圖2 Tansformer模型結構
其次,“人身攻擊類”不良信息處理模塊?!叭松砉纛悺辈涣夹畔⒅饕韵聨追N類型:1.語義情感較為負面的內(nèi)容;2.帶有罵人、羞辱、嘲諷等詞匯的內(nèi)容;3.惡意玩梗,讓青少年產(chǎn)生不良體驗等內(nèi)容?!叭松砉纛悺辈涣夹畔⒌倪^濾本質(zhì)上是一個文本二分類問題。經(jīng)過綜合考慮,模型選擇Albert模型做為基準。該模型是一種基于BERT模型的輕量級優(yōu)化,它基于嵌入?yún)?shù)化進行因式分解和跨層參數(shù)共享的技術,大幅提升了訓練速度。其模型結構如圖2所示。
圖3 Albert模型結構
對于“人身攻擊類”不良信息的模型處理同樣需要經(jīng)過數(shù)據(jù)準備與模型構建兩個階段。
在數(shù)據(jù)準備階段,需要對于“人身攻擊類”彈幕進行數(shù)據(jù)清洗、篩選和增強。模型采用confidence learning技術對數(shù)據(jù)進行標簽修正。以人身攻擊文本:非人身攻擊文本=1:5的比例,構建有兩千萬條彈幕的訓練集進行模型的訓練,并在二十萬條文本的驗證集上進行驗證。
在模型構建階段,模型會先對輸入的彈幕進行tokenization(id化),然后對token、segment和position這三種embedding進行相加,再通過encoder層拿到句子的表征向量,最后輸出一個0到1之間的概率值。越接近1表示該彈幕內(nèi)容越有可能包含人身攻擊內(nèi)容。根據(jù)B站的彈幕生態(tài)分布情況,需要不斷進行模型的迭代優(yōu)化,減少青少年觀眾接觸“人工攻擊類”不良信息的可能性。
此外,“彈幕優(yōu)選”正向信息處理模塊。除了對于不良信息的過濾,社區(qū)還對于有利于兒童發(fā)展的積極向上的正向內(nèi)容進行引導。以人工智能的技術對用戶生成的彈幕內(nèi)容進行評分,更加有利于營造更好的兒童觀看視頻的彈幕環(huán)境。
該模型的訓練數(shù)據(jù)來自用戶的點贊彈幕。點贊代表的是觀眾對于該文本的態(tài)度,點贊數(shù)量越多代表觀眾對于文本內(nèi)容有更為積極的態(tài)度。人工智能系統(tǒng)優(yōu)先推送評分更高的彈幕,從而能夠正向引導社區(qū)的氛圍。
關于應用效果
針對上述提到的三個信息處理模塊,在不同的業(yè)務場景下均實現(xiàn)了努力創(chuàng)造一個促進兒童友好型人工智能的網(wǎng)絡環(huán)境的效果。
一是“軟色情類”不良信息處理模塊應用于平臺中的文本軟色情識別。保護兒童的安全,保障兒童在互聯(lián)網(wǎng)上學習、娛樂的過程中不受到有害信息的危險。
二是“人身攻擊類”不良信息處理模塊應用于平臺中的人身攻擊類文本識別。在識別并進行運營的干預后,使整體人身攻擊類彈幕占比下降約40%。當前模型預測有較高的準確率,為兒童的觀看體驗提供了保護和支持。
三是“彈幕優(yōu)選”正向信息處理模塊應用于平臺中的正面信息引導。篩選出能夠營造積極氛圍的彈幕,營造了良好的社區(qū)氛圍。應用該模塊能夠使社區(qū)中的正向內(nèi)容率整體提升33%。此外,平臺相配套的“能量加油站”等心理健康服務功能,能夠進一步引導兒童得到線上或線下的人工支持,賦能兒童的健康成長。
作為中國最大的內(nèi)容社區(qū)平臺之一,嗶哩嗶哩長期關注兒童的網(wǎng)絡安全相關風險與趨勢,在保護、賦能兒童方面積極投入。未來,嗶哩嗶哩將持續(xù)投入專業(yè)的團隊資源,為創(chuàng)造一個促進兒童友好型人工智能的網(wǎng)絡環(huán)境積極貢獻。(案例報送單位來自上海寬娛數(shù)碼科技有限公司,上文為部分節(jié)選,如需全文請聯(lián)系項目組。)
來源: 光明網(wǎng)