機(jī)器之心專欄
作者:螞蟻集團(tuán)-大安全-數(shù)字身份及安全生態(tài)、浙江大學(xué)
來自浙江大學(xué)和螞蟻集團(tuán) – 大安全 – 數(shù)字身份及安全生態(tài)的研究者提出了一種基于標(biāo)簽關(guān)系樹的層級(jí)殘差多粒度分類網(wǎng)絡(luò) HRN。
基于有監(jiān)督式深度學(xué)習(xí)的圖像識(shí)別任務(wù)中一個(gè)方面要求是構(gòu)建整理大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù),這就對(duì)圖像質(zhì)量和標(biāo)注人員的背景知識(shí)有比較高的要求。例如,在細(xì)粒度分類任務(wù)中,標(biāo)注人員需要依賴大量的領(lǐng)域知識(shí)去區(qū)分各種種類的鳥以及不同型號(hào)的艦船,如圖 1 所示。
圖 1: 不同種類的信天翁以及不同型號(hào)的航母
在圖 1 中,標(biāo)注人員需要借助鳥類專家的知識(shí)才能辨認(rèn)黑腳信天翁與黑背信天翁,擁有一般鳥類知識(shí)的人員或許會(huì)將這兩種鳥類歸類為信天翁,而缺乏鳥類知識(shí)的人員可能只會(huì)將這兩種鳥類歸類為鳥。類似地,標(biāo)注人員需要借助軍事艦船專家的知識(shí)才能有效區(qū)分尼米茲級(jí)航母與企業(yè)級(jí)航母,而缺乏相關(guān)背景知識(shí)的人員可能會(huì)將這兩類艦船歸類為航母。也就是說,同一張圖片會(huì)被擁有不同背景知識(shí)的標(biāo)注人員標(biāo)注到不同層級(jí)粒度的類別上。
除了背景知識(shí)對(duì)標(biāo)注產(chǎn)生的影響,諸如鳥類辨別中的關(guān)鍵區(qū)域被遮擋、圖像分辨率較低、或者圖像比較模糊等圖像質(zhì)量因素也會(huì)干擾標(biāo)注人員對(duì)于圖像目標(biāo)屬于層級(jí)多粒度標(biāo)簽中的哪一類的判斷,如圖 2 所示。
圖 2: 由于遮擋、分辨率等圖像質(zhì)量的變化與專家背景知識(shí)的差異,導(dǎo)致目標(biāo)可能被標(biāo)注到不同層級(jí)上
但是,傳統(tǒng)的圖像識(shí)別數(shù)據(jù)集類別設(shè)定中,針對(duì)某個(gè)特定任務(wù)例如通用圖像分類任務(wù)或者細(xì)粒度分類任務(wù),類別標(biāo)簽往往只位于同一層級(jí)中,無法魯棒地利用標(biāo)注到不同層級(jí)上的圖片,對(duì)標(biāo)注的要求較高。為了降低圖像質(zhì)量以及背景知識(shí)等帶來的對(duì)標(biāo)注數(shù)據(jù)的高要求、充分利用具有不同層級(jí)粒度標(biāo)簽的樣本,設(shè)計(jì)建模目標(biāo)層級(jí)語義結(jié)構(gòu)的層級(jí)多粒度識(shí)別算法對(duì)于提升深度神經(jīng)網(wǎng)絡(luò)的魯棒性具有十分重要的作用。為此,浙江大學(xué)聯(lián)合螞蟻集團(tuán)提出了一種基于標(biāo)簽關(guān)系樹的層級(jí)殘差多粒度分類網(wǎng)絡(luò),收錄到 CVPR2022 中。
- 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Label_Relation_Graphs_Enhanced_Hierarchical_Residual_Network_for_Hierarchical_Multi-Granularity_CVPR_2022_paper.pdf
- 代碼地址:https://github.com/MonsterZhZh/HRN
算法介紹
我們從三點(diǎn)觀察出發(fā)構(gòu)建我們的層級(jí)多粒度分類算法:(1)由于細(xì)粒度類別可以根據(jù)不同層次的抽象向上不停迭代歸類形成樹形類別結(jié)構(gòu),我們構(gòu)建對(duì)應(yīng)的標(biāo)簽關(guān)系樹建模層級(jí)類別間的語義關(guān)系;(2) 基于標(biāo)簽關(guān)系樹設(shè)計(jì)復(fù)合損失函數(shù),使得具有不同層級(jí)粒度標(biāo)注的樣本在學(xué)習(xí)時(shí)可以傳遞層級(jí)間的知識(shí);(3)現(xiàn)實(shí)世界中位于低層級(jí)的子類除了擁有自己的獨(dú)特屬性還會(huì)進(jìn)一步繼承來自父類的屬性,我們首先為每個(gè)層級(jí)設(shè)置專有的特征提取層,根據(jù)主干網(wǎng) 絡(luò)輸出的特征提取各個(gè)層級(jí)相關(guān)的特征。然后我們參考深度殘差網(wǎng)絡(luò)中經(jīng)典的殘差連接 設(shè)計(jì),實(shí)現(xiàn)為所有父類層級(jí)的特征以殘差連接的方式融合到子類層級(jí)專有的特征中,進(jìn)而用于當(dāng)前層級(jí)類別分類的層級(jí)殘差網(wǎng)絡(luò)(HRN)。
標(biāo)簽關(guān)系樹
標(biāo)簽關(guān)系樹
、有向邊集合
、以及無向邊集合
組成。每個(gè)節(jié)點(diǎn)
對(duì)應(yīng)到層級(jí)中的一個(gè)類別標(biāo)簽,圖中的節(jié)點(diǎn)個(gè)數(shù) n 等于層級(jí)中所有標(biāo)簽的個(gè)數(shù)。一條有向邊
代表節(jié)點(diǎn)
間具有父子關(guān)系,及類別 i 是類別 j 的父類。一條無向邊
代表節(jié)點(diǎn)
與
為互斥關(guān)系。層級(jí)中每個(gè)類別標(biāo)簽取值為二元值,即
,代表目標(biāo)是否具有這個(gè)類別標(biāo)簽。圖中每條邊限制了相連節(jié)點(diǎn)的取值:對(duì)于具有父子關(guān)系邊相連的兩個(gè)節(jié)點(diǎn)
的賦值是違法的(是拉布拉多卻不是狗);對(duì)于具有互斥關(guān)系邊相連的兩個(gè)節(jié)點(diǎn)
的賦值是違法的(既是柯基又是拉布拉多)。圖中所有邊約束了層級(jí)多標(biāo)簽中相鄰類別節(jié)點(diǎn)的合法取值,對(duì)于層級(jí)中所有標(biāo)簽的一個(gè)全局合法賦值為一個(gè)二元標(biāo)簽向量
。所有全局合法賦值向量的集合構(gòu)成標(biāo)簽關(guān)系樹 G 擁有的合法賦值空間
。
層級(jí)殘差網(wǎng)絡(luò)
圖 3: 層級(jí)殘差網(wǎng)絡(luò)結(jié)構(gòu)圖
基于殘差跨層級(jí)連接的層級(jí)殘差網(wǎng)絡(luò) (HRN) 由一個(gè)主干特征提取網(wǎng)絡(luò)、層級(jí)特征 交互模塊、以及兩個(gè)并行的輸出通道構(gòu)成,如圖 3 所示。任何常用的網(wǎng)絡(luò)都可以作為主干網(wǎng)絡(luò)用來提取輸入圖像的特征,我們選用廣泛使用的深度殘差網(wǎng)絡(luò) ResNet-50 作為 HRN 網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。層級(jí)特征交互模塊包括每個(gè)層級(jí)專有的特征提取層與殘差連接部分。層級(jí)專有特征提取層網(wǎng)絡(luò)結(jié)構(gòu)一致,都包含兩層卷積層后接兩層全連接層 (FC)。層級(jí)專有特征提取層根據(jù)主干網(wǎng)絡(luò)產(chǎn)生的共享輸入特征提取每個(gè)層級(jí)專有的特征。殘差連接部分首先線性組合來自粗粒度父類層級(jí)的特征與細(xì)粒度子類層級(jí)的特征,反映子類不僅具有屬于自己的獨(dú)特屬性還繼承了來自父類的屬性。父類層級(jí)專有特征提取層可以視為殘差連接將屬于自己層級(jí)的特征逐層向下結(jié)合到子類層級(jí)的特征中。
然后,我們對(duì)組合后的特征應(yīng)用非線形變換(ReLU) 后送入后續(xù)網(wǎng)絡(luò)層。網(wǎng)絡(luò)最后依然設(shè)置兩路并行的輸出通道。第一路輸出通道用來基于標(biāo)簽關(guān)系樹計(jì)算概率分類損失函數(shù),通道中的 sigmoid 節(jié)點(diǎn)一一對(duì)應(yīng)層級(jí)中的每個(gè)類別標(biāo)簽,所有 sigmoid 節(jié)點(diǎn)按照標(biāo)簽關(guān)系樹進(jìn)行組織。第二路輸出通道中的 softmax 節(jié)點(diǎn)對(duì)應(yīng)最后一層級(jí)中彼此互斥的細(xì)粒度類別,形成多類交叉熵?fù)p失函數(shù)讓網(wǎng)絡(luò)在優(yōu)化時(shí)關(guān)注細(xì)粒度分類的誤差。
復(fù)合損失函數(shù)
給定一幅輸入圖像
通道中對(duì)應(yīng)賦值向量的所有 sigmoid 節(jié)點(diǎn)的聯(lián)合輸出概率可以計(jì)算為:
- ,代表層級(jí)中第 i 個(gè)節(jié)點(diǎn)的 sigmoid 輸出
- ,代表由標(biāo)簽關(guān)系樹定義的層級(jí)約束
- 用作概率歸一化,求和標(biāo)簽關(guān)系樹上所有的合法賦值
如果輸入圖像 x 被標(biāo)注到樹中的第 i 個(gè)標(biāo)簽上,即
,我們可以計(jì)算標(biāo)簽 i 的邊緣概率:
分析邊緣概率的計(jì)算公式,我們可以發(fā)現(xiàn):(1)圖中某個(gè)標(biāo)簽 的邊緣概率依賴于該標(biāo)簽所有的父類節(jié)點(diǎn)分?jǐn)?shù)值之和,因?yàn)樵摌?biāo)簽賦值為 1 則其所有的 父節(jié)點(diǎn)都應(yīng)該賦值 1 才能滿足層級(jí)約束關(guān)系。因此,邊緣概率的計(jì)算可以使得父節(jié)點(diǎn)的 分?jǐn)?shù)值影響子節(jié)點(diǎn)的預(yù)測(cè)值。(2)計(jì)算層級(jí)中間標(biāo)簽的邊緣概率時(shí)需要包含其所有子類標(biāo)簽對(duì)應(yīng)的聯(lián)合概率,即可以聚集來自子類的知識(shí)。最后,給定 m 個(gè)訓(xùn)練樣本
,我們最大似然邊緣概率得到概率分類損失函數(shù):
- 代表賦值的標(biāo)簽向量,為標(biāo)注到標(biāo)簽關(guān)系樹中的標(biāo)簽下標(biāo)。
為了進(jìn)一步加強(qiáng)網(wǎng)絡(luò)對(duì)于細(xì)粒度葉子節(jié)點(diǎn)的區(qū)分能力,我們進(jìn)一步結(jié)合多類交叉熵?fù)p失函數(shù),形成最后的復(fù)合損失函數(shù)優(yōu)化整個(gè)網(wǎng)絡(luò):
即根據(jù)樣本是否被標(biāo)注葉子節(jié)點(diǎn),選擇性地結(jié)合交叉熵?fù)p失函數(shù)與概率分類損失函數(shù)。
實(shí)驗(yàn)
數(shù)據(jù)集
我們?cè)诔S玫娜准?xì)粒度分類數(shù)據(jù)集:CUB-200-2011、FGVC-Aircraft、Stanford Cars。依據(jù)維基百科為每個(gè)數(shù)據(jù)集設(shè)定層級(jí)標(biāo)簽關(guān)系樹,其中 CUB-200-2011 包含 38 orders, 38 families, 200 species 三個(gè)層級(jí);FGVC-Aircraft 具有 30 makers, 70 families, 100 models 三個(gè)層級(jí);以及 Stanford Cars 具有 9 car types, 196 car makers 兩個(gè)層級(jí)。
實(shí)驗(yàn)指標(biāo)
我們采用兩套實(shí)驗(yàn)指標(biāo)進(jìn)行評(píng)價(jià):衡量每個(gè)層級(jí)的準(zhǔn)確率(OA)以及層級(jí)分類中的常用指標(biāo)
,即首先計(jì)算各個(gè)類別上平均的 precision-recall (PRC)曲線,通過某個(gè)閾值,獲得平均 PRC 曲線中的一點(diǎn)
:
通過設(shè)定不同的閾值得到平均 PRC 曲線,
為平均 PRC 曲線下的面積。
實(shí)驗(yàn)設(shè)計(jì)
我們模擬現(xiàn)實(shí)世界中存在的兩點(diǎn)限制:(1)模擬主觀專家知識(shí)的差異:將位于細(xì)粒度葉子類別中的樣本,選取其中 0%,30%,50%,,70% 以及 90% 的樣本,重新標(biāo)記到其對(duì)應(yīng)的父類標(biāo)簽;(2)模擬圖像質(zhì)量的影響:將選取的重標(biāo)記樣本進(jìn)一步降低其圖像的分辨率。
消融實(shí)驗(yàn)
在表 1 中我們驗(yàn)證了層級(jí)殘差網(wǎng)絡(luò)中包含的層級(jí)專有特征提取層(GSB)、層級(jí)特征線性組合(LC)、以及針對(duì)組合后的層級(jí)特征的非線性變換(ReLU)各部分的作用:
表 1:通過逐步添加 HRN 網(wǎng)絡(luò)中的關(guān)鍵部分: 層級(jí)專有特征提取層 (granularity-specific block, GSB)、層級(jí)間特征的線性組合(linear combination, LC)、以及最后對(duì)于組合特征的非線形變換 (ReLU) 獲得 CUB-200-2011 數(shù)據(jù)集中最后一層級(jí)上對(duì)應(yīng)重標(biāo)記比例為 0% 的 OA(%) 實(shí)驗(yàn)結(jié)果。
在表 2 中我們驗(yàn)證了復(fù)合損失函數(shù)中多類交叉熵?fù)p失函數(shù)的作用:
表 2: 不同重標(biāo)記比例下驗(yàn)證概率分類損失函數(shù)
與多類交叉熵?fù)p失函數(shù)
的結(jié)合效果,匯報(bào) CUB-200-2011 數(shù)據(jù)集中最后一層級(jí)上的 OA(%) 實(shí)驗(yàn)結(jié)果
在表 3 中我們對(duì)比了復(fù)合損失函數(shù)與傳統(tǒng)的層級(jí)分類損失函數(shù)對(duì)比的結(jié)果:
表 3:CUB-200-2011 數(shù)據(jù)集中最后一層級(jí)上重標(biāo)記比例為 0% 對(duì)比復(fù)合損失函數(shù)與傳統(tǒng)層級(jí)分類損失函數(shù)的 OA(%) 實(shí)驗(yàn)結(jié)果
在圖 4 中我們利用 Grad-Cam 可視化算法展示各個(gè)層級(jí)響應(yīng)的二維激活熱力圖:
圖 4: 鳥類數(shù)據(jù)集上來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種 種類 (species: House Wren 與 Marsh Wren) 的鳥類圖片上,我們方法產(chǎn)生的二維激活熱力圖
對(duì)比實(shí)驗(yàn)
我們對(duì)比了 4 種公認(rèn)的層級(jí)多粒度分類方法:HMC-LMLP[1] 、HMCN[2]、Chang et al.[3]、C-HMCNN[4]。我們匯總平均在各個(gè)數(shù)據(jù)集、不同重標(biāo)記比例下各個(gè)對(duì)比方法的 OA / 結(jié)果在表 4 中:
表 4: 在各個(gè)數(shù)據(jù)集、不同重標(biāo)記比例下對(duì)比方法的平均 OA / 結(jié)果
類似地,我們利用 Grad-Cam 算法展示各個(gè)對(duì)比方法在不同層級(jí)上的二維激活熱力圖,結(jié)果見圖 5:
圖 5: CUB-200-2011 數(shù)據(jù)集中來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種種類(左邊: House Wren,右邊: Marsh Wren) 的鳥類圖片上,不同對(duì)比方法在三層層級(jí) 上各自的感興趣響應(yīng)區(qū)域示例
參考文獻(xiàn)
[1]Ricardo Cerri, et al. Reduction strategies for hierarchical multi-label classification in protein function prediction. BMC Bioinformat., 17(1):373, 2016.
[2]Jonatas Wehrmann, Ricardo Cerri, and Rodrigo Barros. Hierarchical multi-label classification networks. ICML, 2018.
[3]Dongliang Chang, et al. Your” flamingo” is my” bird”: Fine-grained, or not. CVPR, 2021.
Eleonora Giunchiglia and Thomas Lukasiewicz. Coherent hierarchical multi-label classification networks. NeurIPS, 2020.