極客號(hào)(Daydx.com)11月1日 消息:Cutie是一種用于自動(dòng)識(shí)別和追蹤視頻中特定物體的技術(shù)。它具有高級(jí)的對(duì)象理解能力,可以識(shí)別整個(gè)物體的形狀和特性,而不僅僅是像素級(jí)的信息。同時(shí),它還能夠精確地將目標(biāo)物體從背景物體中分離出來。
無論在復(fù)雜場(chǎng)景中還是在有多個(gè)物體和復(fù)雜背景的視頻中,Cutie都可以準(zhǔn)確地進(jìn)行對(duì)象分割。雖然功能強(qiáng)大,但它的運(yùn)行速度也相當(dāng)快,適用于需要實(shí)時(shí)處理的應(yīng)用場(chǎng)景。
論文地址:https://hkchengrex.com/Cutie/
Cutie的工作原理如下:首先,在視頻的第一幀中,Cutie會(huì)找到并記住你想跟蹤的物體的位置和形狀。然后,它會(huì)存儲(chǔ)物體的詳細(xì)像素信息,就像給物體拍了一張身份證照片。
當(dāng)視頻繼續(xù)播放時(shí),Cutie會(huì)使用之前記住的信息快速找到物體,并用存儲(chǔ)的詳細(xì)信息來精確確認(rèn)物體的位置和形狀。Cutie同時(shí)使用粗略特征和詳細(xì)信息,所以它能在視頻中快速而準(zhǔn)確地找到并跟蹤物體。這樣,無論物體如何移動(dòng)或變化,Cutie都能準(zhǔn)確地追蹤它,這在安全監(jiān)控、自動(dòng)駕駛車輛或醫(yī)學(xué)研究等領(lǐng)域非常有用。
Cutie主要采用了對(duì)象級(jí)別的內(nèi)存讀取能力。與傳統(tǒng)的像素級(jí)內(nèi)存讀取方法不同,Cutie使用一種自上而下的對(duì)象級(jí)內(nèi)存讀取方式,這可以提高在復(fù)雜數(shù)據(jù)集上的性能。Cutie使用對(duì)象變換器與底層像素特征進(jìn)行交互,這些對(duì)象變換器作為目標(biāo)對(duì)象的高級(jí)摘要,而高分辨率的特征圖用于精確的分割。
此外,Cutie還引入了前景-背景掩碼注意力機(jī)制,使得部分對(duì)象查詢只關(guān)注前景,其余部分只關(guān)注背景,從而更清晰地分離前景對(duì)象和背景的語義。除了像素內(nèi)存外,Cutie還引入了一個(gè)緊湊的對(duì)象內(nèi)存,用于總結(jié)目標(biāo)對(duì)象的特征,從而實(shí)現(xiàn)了目標(biāo)對(duì)象的有效長(zhǎng)期表示。
在實(shí)際評(píng)估中,使用MOSE標(biāo)準(zhǔn)測(cè)試,Cutie的性能比XMem方法提高了8.7分。與DeAOT方法相比,Cutie獲得了4.2分的高分,并且處理速度比DeAOT快三倍。
總的來說,Cutie是一種功能強(qiáng)大的對(duì)象識(shí)別和追蹤技術(shù),可以應(yīng)用于各種場(chǎng)合,包括自動(dòng)駕駛、視頻編輯和安全監(jiān)控等。它的高級(jí)對(duì)象理解和精確分割能力使其在復(fù)雜場(chǎng)景中表現(xiàn)出色,并且其快速準(zhǔn)確的特點(diǎn)使其適用于實(shí)時(shí)處理的需求。通過采用對(duì)象級(jí)別的內(nèi)存讀取和前景-背景掩碼注意力機(jī)制,Cutie在性能和效果上都有很大的提升。