在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<pre id="gqp5y"><del id="gqp5y"><rt id="gqp5y"></rt></del></pre>

語(yǔ)義分割新范式！StructToken：對(duì)per-pixel 分類范式的重新思考

用戶投稿 ? 2022年6月24日 12:44 ? 社會(huì)

作者丨Lart

編輯丨極市平臺(tái)

論文鏈接：https://arxiv.org/abs/2203.12612

本文是對(duì)語(yǔ)義分割傳統(tǒng)編解碼逐像素分類范式的一種思考和改進(jìn)。

之前語(yǔ)義分割的工作將其視作一種逐像素分類任務(wù)，主流范式是編解碼結(jié)構(gòu)，通過(guò)編碼器和解碼器學(xué)習(xí)逐像素表征后，通過(guò)對(duì)每個(gè)像素單獨(dú)分類到不同的類別中從而獲得預(yù)測(cè)的語(yǔ)義掩碼結(jié)果。這篇文章選擇了另一種策略，即將結(jié)構(gòu)信息作為先驗(yàn)直接構(gòu)造語(yǔ)義掩碼然后逐步細(xì)化，而不再是按照逐像素分類的范式。

具體來(lái)看，對(duì)于給定的輸入圖像，模型中可學(xué)習(xí)的結(jié)構(gòu)token會(huì)和圖像表征進(jìn)行交互，從而推理出最終的語(yǔ)義掩碼。這一思路和最初的ViT結(jié)構(gòu)中的cls token的行為頗為類似。考慮到這份工作的實(shí)現(xiàn)是基于ViT-L，所以可以很直觀的推想出，StructToken的思路很是將Transformer原本的形式向語(yǔ)義分割這樣的密集預(yù)測(cè)任務(wù)的一種“直接”遷移，這其中并沒有像其他工作那樣，過(guò)多受到目標(biāo)任務(wù)中原始的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)范式的影響。

所以值得思考的幾點(diǎn)可以由此提出：

本文定義的結(jié)構(gòu)信息是什么？
提出的設(shè)計(jì)是怎樣表達(dá)出這些結(jié)構(gòu)信息的？
如何驗(yàn)證這些設(shè)計(jì)帶來(lái)的提升與所謂的結(jié)構(gòu)信息有關(guān)？

相關(guān)工作

現(xiàn)有的語(yǔ)義分割領(lǐng)域已經(jīng)出現(xiàn)了大量的工作，但是目前出現(xiàn)的工作中基本上都可以被歸類為逐像素分類范式，差別主要在于分類參數(shù)是否是動(dòng)態(tài)的：

靜態(tài)逐像素分類：延續(xù)著以分割領(lǐng)域早期基于卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典工作的范式，例如FCN。他們主要利用上下文語(yǔ)義信息的增強(qiáng)和多尺度特征的融合，從而獲得更有效的圖像特征表示。并利用獨(dú)立的靜態(tài)分類器（典型如1×1卷積）實(shí)現(xiàn)逐像素的語(yǔ)義類別預(yù)測(cè)。然而這類工作專注于提升逐像素特征的表達(dá)能力，卻并未在模型設(shè)計(jì)中考慮圖像中的結(jié)構(gòu)信息。
動(dòng)態(tài)逐像素分類：最近的工作中開始引入動(dòng)態(tài)結(jié)構(gòu)的思想。除了模型本身特征處理結(jié)構(gòu)之外，分類器也開始轉(zhuǎn)變?yōu)閯?dòng)態(tài)形式。論文列出的典型的工作有Segmenter[Segmenter: Transformer for semantic segmentation]、MaskFormer[Per-pixel classification is not all you need for semantic segmentation]、Mask2Former[Masked-attention mask transformer for universal image segmentation]和K-Net[K-Net: Towards unified image segmentation]。他們主要是使用了一系列與語(yǔ)義類別相關(guān)的可學(xué)習(xí)的token，與圖像自身的特征進(jìn)行交互，從而實(shí)現(xiàn)最終mask的預(yù)測(cè)。這從形式上來(lái)看，可以認(rèn)為是一種動(dòng)態(tài)分類的過(guò)程。這些方法同時(shí)由沒有完全拋棄上面提到的經(jīng)典范式，整體上獲得了更好的表現(xiàn)。但是從本文的角度來(lái)看，這類方法仍然沒有拋開逐像素分類的范式:)。

這些工作從整體上來(lái)看，都是在學(xué)習(xí)針對(duì)每一類的線性判別函數(shù)，要么是靜態(tài)的卷積，要么動(dòng)態(tài)的矩陣乘法運(yùn)算。這會(huì)作用在逐像素的特征表示上，從而來(lái)為其賦予一個(gè)最相關(guān)的語(yǔ)義類別。

作者們認(rèn)為，按照人識(shí)別物體的過(guò)程，先是捕獲語(yǔ)義類別的結(jié)構(gòu)信息（形狀等），然后關(guān)注于內(nèi)部細(xì)節(jié)。想要分割圖像中不同語(yǔ)義類別的區(qū)域，通常先根據(jù)結(jié)構(gòu)生成一個(gè)粗略的mask，之后在調(diào)整mask的細(xì)節(jié)。現(xiàn)有的兩種逐像素分類范式并沒有充分的體現(xiàn)這一過(guò)程，而更多的是，直接在模型倒數(shù)第二層的特征圖上分類像素從而獲得得分圖。這一特性鼓勵(lì)網(wǎng)絡(luò)優(yōu)化單一像素的表征，而忽略甚至破壞了最重要的結(jié)構(gòu)特征。

本文中作者們提出了一種結(jié)構(gòu)先驗(yàn)范式來(lái)解決這一問(wèn)題，直接從結(jié)構(gòu)token中構(gòu)造得分圖來(lái)分割圖像，然后逐漸細(xì)化。

主要內(nèi)容

文中主要研究了如何從特征圖中根據(jù)結(jié)構(gòu)token提取有用的信息。提出的結(jié)構(gòu)整體遵循這樣的過(guò)程：

提取特征：使用Transformer骨干網(wǎng)絡(luò)，例如ViT，提取特征圖F，大小為[C,H/16,W/16]。

構(gòu)造結(jié)構(gòu)token：隨機(jī)初始化可學(xué)習(xí)的結(jié)構(gòu)token S，大小為[K,N]，K為數(shù)據(jù)集類別數(shù)量，N為patch數(shù)量，即[H/16,W/16]。

信息交互：使用交互結(jié)構(gòu)來(lái)處理S。捕獲特征圖中的結(jié)構(gòu)信息，并根據(jù)學(xué)習(xí)到的先驗(yàn)為每一類構(gòu)建粗略的mask。

特征細(xì)化：獨(dú)立的FFN用于結(jié)構(gòu)token的細(xì)化，并處理特征圖。

級(jí)聯(lián)處理：堆疊多個(gè)基礎(chǔ)單元（包括交互和細(xì)化）來(lái)重復(fù)處理特征。

預(yù)測(cè)結(jié)果：尾部使用兩個(gè)卷積層和跳過(guò)鏈接構(gòu)成的卷積塊來(lái)細(xì)化最終構(gòu)建的分割mask并得到最終的結(jié)果。

這些步驟中，交互式結(jié)構(gòu)的設(shè)計(jì)是本文的核心。文中主要探索了三種交互式結(jié)構(gòu)。其中包含兩種動(dòng)態(tài)結(jié)構(gòu)和一種靜態(tài)結(jié)構(gòu)。

動(dòng)態(tài)結(jié)構(gòu)：基于Attention的思路，但是計(jì)算相關(guān)的token并非是空間patch，而是基于通道，即S中的類別token和F中的特征通道之間的交互。

第一種CSE基于Cross-Attention范式，經(jīng)過(guò)線性變換，S生成Query，F(xiàn)生成Key和Value，送入Cross-Attention。這里得到的結(jié)果與S形狀一致。按照?qǐng)D示，這里也有個(gè)拆分操作，但是論文并未明說(shuō)具體如何實(shí)現(xiàn)。
第二種SSE基于Self-Attention范式，S和F沿通道拼接后經(jīng)過(guò)線性變換得到Query、Key和Value，并送入Self-Attention。結(jié)果會(huì)被按照通道的原始比例進(jìn)行拆分。

靜態(tài)結(jié)構(gòu)：直接使用1×1卷積處理SSE模塊中的相似性注意力的計(jì)算。卷積結(jié)果即為最終對(duì)應(yīng)于拆分之前的結(jié)果。這一過(guò)程使用1×1卷積直接混合不同的輸入通道的信息，實(shí)現(xiàn)了類似于SSE的過(guò)程。

上面結(jié)構(gòu)中在執(zhí)行Attention操作之前，S和F會(huì)被送入投影層處理，雖然是針對(duì)通道的Attention處理，但是這里的投影層使用的是1×1卷積+3×3深度卷積+1×1卷積的形式，仍然是空間維度共享的操作。

這些模塊的兩個(gè)輸出都會(huì)各自接一個(gè)FFN。這里的FFN使用的是FC+3×3分組卷積+FC的結(jié)構(gòu)。即可以細(xì)化局部特征，也可以看作是一種隱式位置編碼。

實(shí)驗(yàn)結(jié)果

對(duì)比實(shí)驗(yàn)

文中在三個(gè)主要的語(yǔ)義分割數(shù)據(jù)集上進(jìn)行了驗(yàn)證。本文的方法是構(gòu)建在ViT的不同變體之上的，也因此沒有使用那些金字塔架構(gòu)形式的多尺度特征。

從這里的實(shí)驗(yàn)中可以發(fā)現(xiàn)一個(gè)趨勢(shì)，語(yǔ)義分割方法使用的backbone越來(lái)越大，從早期的的Res101，到現(xiàn)在的ViT-L、MiT-B5、Swin-L。預(yù)訓(xùn)練權(quán)重甚至都開始使用ImageNet21K上的了。不知道這樣的潮流是否真的有意義。

消融實(shí)驗(yàn)

對(duì)提出的結(jié)構(gòu)中的不同組件進(jìn)行了消融實(shí)驗(yàn)。這里的baseline模型基于ViT，僅隔著一個(gè)CSE模塊和FFN模塊。這里的FFN沒有使用分組卷積，另外這里不對(duì)Query、Key和Value的投影層進(jìn)行消融實(shí)驗(yàn)，因?yàn)樽髡邆冇X得如果替換成常規(guī)的全連接成，會(huì)導(dǎo)致無(wú)法支持多尺度推理。因?yàn)闉榱吮３謅ttention操作本身的原始性，僅對(duì)輸入轉(zhuǎn)置來(lái)實(shí)現(xiàn)通道attention而非手動(dòng)修改投影層的情況下，此時(shí)的投影層就成了空間上的全連接了。

這里還對(duì)提出的解碼塊堆疊數(shù)量進(jìn)行了實(shí)驗(yàn)，最終作者們考慮性能與計(jì)算復(fù)雜度的平衡，就選擇了4。實(shí)際上實(shí)驗(yàn)中反映出來(lái)，更多的塊會(huì)帶來(lái)更好的性能表現(xiàn)。

但是作者們并沒有討論這些伴隨而來(lái)的計(jì)算量和參數(shù)量對(duì)于性能的影響。

為了驗(yàn)證提出的結(jié)構(gòu)token保留結(jié)構(gòu)信息的能力，作者們構(gòu)建了一個(gè)逐像素分類范式的對(duì)等參考，backbone提取的特征會(huì)先將通道數(shù)量調(diào)整到類別數(shù)（類似于本文提出的結(jié)構(gòu)token那樣），每個(gè)通道認(rèn)為對(duì)應(yīng)一個(gè)類別。之后通過(guò)四個(gè)殘差塊來(lái)進(jìn)行處理，最終使用1×1卷積生成最終的得分圖。來(lái)自每個(gè)殘差塊的輸出會(huì)被用來(lái)與本文模型中每個(gè)交互塊的結(jié)構(gòu)token輸出進(jìn)行可視化對(duì)比。下圖中，不同的行組對(duì)應(yīng)著不同的類別?？梢钥吹?，盡管輸出的得分圖很類似，但是結(jié)構(gòu)token在中間的輸出卻展現(xiàn)出了更清晰的目標(biāo)形狀、輪廓等結(jié)構(gòu)信息。而且隨著多個(gè)塊的處理，這些目標(biāo)信息更加清晰（典型如第9行）。

總結(jié)與思考

回答開頭的問(wèn)題：

本文定義的結(jié)構(gòu)信息是什么？文章反復(fù)在強(qiáng)調(diào)的結(jié)構(gòu)其實(shí)直觀上可以理解為反映目標(biāo)信息的形狀和外觀。本文提出的結(jié)構(gòu)Token在多次堆疊的處理單元的輸出中都明顯的凸顯出了特定類別的目標(biāo)，確實(shí)實(shí)現(xiàn)了“粗略預(yù)測(cè)”的效果。
提出的設(shè)計(jì)是怎樣表達(dá)出這些結(jié)構(gòu)信息的？基于通道的交互方式，使得結(jié)構(gòu)token可以對(duì)圖像特征不同的通道進(jìn)行自適應(yīng)的組合與強(qiáng)化。雙流中各自的FFN實(shí)現(xiàn)了獨(dú)立的空間變換和通道整合，這保證了各自學(xué)習(xí)過(guò)程的差異性和多樣性。這種交互方式保留了圖像空間結(jié)構(gòu)信息的獨(dú)立性和完整性。同時(shí)由于真值的監(jiān)督，目標(biāo)類別對(duì)應(yīng)的結(jié)構(gòu)token經(jīng)過(guò)優(yōu)化，會(huì)愈發(fā)具有與真值接近的空間上的外觀，也即論文中圖3中所展示的那樣。

這是為什么呢？我覺得這是因?yàn)橥ǖ雷⒁饬Φ氖褂玫慕Y(jié)果。基于通道之間的相似性計(jì)算的attention運(yùn)算中，會(huì)為圖像特征中對(duì)應(yīng)空間位置激活更加明顯（即與結(jié)構(gòu)token對(duì)應(yīng)類別通道更加相似）的通道賦予更大的比重，這樣才會(huì)讓損失越來(lái)越小。

如何驗(yàn)證這些設(shè)計(jì)帶來(lái)的提升與所謂的結(jié)構(gòu)信息有關(guān)？作者對(duì)此并未進(jìn)行探討，或許可以構(gòu)造這樣一個(gè)實(shí)驗(yàn)：在目前這種在最后單一監(jiān)督的形式中，后續(xù)處理單元中結(jié)構(gòu)token各個(gè)類別通道的可視化結(jié)果非常趨于真值了。那若是使用深監(jiān)督策略，直接對(duì)論文中提供的逐像素分類范式的卷積模型，對(duì)這些位置的特征進(jìn)行額外監(jiān)督，進(jìn)一步強(qiáng)化這些特征對(duì)于這些目標(biāo)區(qū)域的分割效果。如果性能進(jìn)一步提升，則說(shuō)明這樣的結(jié)構(gòu)信息的強(qiáng)化是有必要的。

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場(chǎng)，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

信息像素卷積圖像特征類別結(jié)構(gòu)范式語(yǔ)義通道

你尊重快遞員或是外賣騎手嗎？

上一篇 2022年6月24日 12:44

愛立信中國(guó)區(qū)總裁方迎：已與中國(guó)相關(guān)部門開展了6G前期合作

下一篇 2022年6月24日 12:44

計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)論文(計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)論文七千字)
今天小編給各位分享計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)論文的知識(shí)，其中也會(huì)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)論文七千字進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問(wèn)題，別忘了關(guān)注本站，現(xiàn)在開始吧！計(jì)算機(jī)網(wǎng)絡(luò)方面的論文3000字…
2022年11月26日
0
拍照比較好的手機(jī)(不打游戲拍照比較好的手機(jī))
本文主要講的是拍照比較好的手機(jī)，以及和不打游戲拍照比較好的手機(jī)相關(guān)的知識(shí)，如果覺得本文對(duì)您有所幫助，不要忘了將本文分享給朋友。拍照效果最好的手機(jī)排行拍照效果最好的手機(jī)排行： 1…
2022年11月25日
0
OPPO Reno9 Pro+硬件規(guī)格強(qiáng) 搭載驍龍8+旗艦處理器
OPPO Reno9系列正式發(fā)布，Reno9 Pro+作為三款新機(jī)中定位最高的超大杯機(jī)型，整體配置較上一代有著大幅度的升級(jí)，如果單看硬件配置的話，Reno9 Pro+甚至是目前OP…
2022年11月24日
0
中興Axon40 Ultra航天版將于11月29日正式發(fā)布
據(jù)中興手機(jī)官微爆料，中興Axon40 Ultra航天版將于11月29日正式發(fā)布，新機(jī)不僅會(huì)采用驍龍?zhí)幚砥?，還將為大家?guī)?lái)一枚獨(dú)立安全芯片，獲得國(guó)密認(rèn)證，擁有安全專利布局，不僅可以大…
2022年11月24日
0
三星tabs8+配置參數(shù) 三星tabs8+屏幕尺寸處理器介紹
三星Galaxy Tab S8+是2022年3月份上市的一款平板，有很多用戶想了解一下這款平板的配置參數(shù)，下面我就給大家提供一下這款平板的參數(shù)配置。三星Galaxy Tab S8…
2022年11月24日
0
兩寸照片大小(兩寸照片大小怎么改到20kb)
今天小編給各位分享兩寸照片大小的知識(shí)，其中也會(huì)對(duì)兩寸照片大小怎么改到20kb進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問(wèn)題，別忘了關(guān)注本站，現(xiàn)在開始吧！兩寸照片是多大 2寸照片尺寸大小…
2022年11月24日
0
vivox90和x90pro/x90pro+區(qū)別差距多大參數(shù)配置對(duì)比評(píng)測(cè)
vivox90系列的賣點(diǎn)有很多，它是首款搭載天璣9200處理器的手機(jī)，擁有蔡司一英寸T主攝和自研的V2芯片。那么vivox90、vivox90pro和vivox90pro+有什么區(qū)…
2022年11月24日
0
前三季度，市場(chǎng)規(guī)模超過(guò)五萬(wàn)億元信息消費(fèi)展現(xiàn)蓬勃生機(jī)
家居企業(yè)個(gè)性化全屋定制系統(tǒng)，備受消費(fèi)者青睞；主打?qū)I(yè)電競(jìng)的新款高性能便攜式計(jì)算機(jī)，銷量表現(xiàn)創(chuàng)新高；物流企業(yè)推出數(shù)智化供應(yīng)鏈興農(nóng)服務(wù)項(xiàng)目，助力優(yōu)質(zhì)農(nóng)產(chǎn)品出深山…… 不久前，工信部發(fā)布…
2022年11月24日
0
真我10pro邊框比蘋果14 Pro窄一半價(jià)格1599元起
上周，realme召開新品發(fā)布會(huì)，推出了真我10系列機(jī)型，真我10 Pro、真我10 Pro+都采用了全新封裝工藝，達(dá)到業(yè)內(nèi)頂級(jí)窄邊框。根據(jù)官方消息，真我10 Pro/Pro+機(jī)…
2022年11月24日
0
園屬于什么結(jié)構(gòu)(園的結(jié)構(gòu)和部首)
園 yuán：全包圍結(jié)構(gòu)，平穩(wěn)端正中稍帶左收右展。外部“口” 體態(tài)端莊，稍抗肩，稍帶左輕右重。左豎起筆稍抖，豎身勿重，稍左斜，垂露收筆；第二筆橫折壓著左豎起筆，橫畫稍抗肩，不要重…
2022年11月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<dfn id="avpzi"></dfn><pre id="avpzi"><style id="avpzi"><b id="avpzi"></b></style></pre>