極客號(Daydx.com)10月2日 消息:最近,視覺Transformer(ViT)成為各類視覺任務(wù)如物體識別和圖片分類的有效架構(gòu)。這是因為自注意力可以從圖片中提取全局信息,而卷積核大小限制了卷積神經(jīng)網(wǎng)絡(luò)(CNN)只能提取局部信息。隨著ViT模型和數(shù)據(jù)集規(guī)模的增大,相比CNN具有更好的擴(kuò)展性。但在輕量級模型上,由于缺乏某些歸納偏置,CNN優(yōu)于ViT。
自注意力的二次復(fù)雜度導(dǎo)致ViT計算成本潛在很高,構(gòu)建輕量高效的ViT并不容易。為此,提出金字塔結(jié)構(gòu),將模型分為多個階段,每階段令牌數(shù)減少,通道數(shù)增加,以構(gòu)建更輕量高效的ViT。簡化自注意力結(jié)構(gòu)以減輕其復(fù)雜度,但以犧牲注意力有效性為代價。一個典型策略是下采樣自注意力的key和value,減少參與注意力過程的令牌數(shù)。
論文地址:https://arxiv.org/abs/2309.12424
本研究中,華東師范大學(xué)和阿里巴巴集團(tuán)的研究人員提出了緊湊高效的視覺Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯(lián)合提取局部和全局信息,再將兩者輸出融合形成有效的注意力結(jié)構(gòu)。盡管窗口自注意力也可以提取局部信息,但他們發(fā)現(xiàn),在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖,在下采樣過程中保留更多信息,降低自注意力在傳播全局信息時的計算成本。
此外,他們在每個級別使用位置感知全局令牌來提高全局?jǐn)?shù)據(jù)質(zhì)量。與標(biāo)準(zhǔn)全局令牌不同,他們的位置感知全局令牌還可以維護(hù)和傳遞圖像位置信息,在視覺任務(wù)中為模型提供優(yōu)勢。如圖1所示,圖像中的關(guān)鍵令牌與位置感知全局令牌中的對應(yīng)令牌產(chǎn)生了更大的相關(guān)性。
總之,他們的貢獻(xiàn)有:1)提出了緊湊高效的視覺Transformer模型DualToken-ViT,通過卷積和自注意力的優(yōu)勢實現(xiàn)有效的注意力結(jié)構(gòu);2)提出位置感知全局令牌,通過圖像位置信息來增強(qiáng)全局信息;3)DualToken-ViT在相同F(xiàn)LOPs下在多個視覺任務(wù)上表現(xiàn)最好。