(映維網(wǎng)Nweon 2022年06月14日)自2019年正式公開介紹旨在創(chuàng)建圖片真實感虛擬數(shù)字人的Codec Avatar項目以來,Meta就一直在積極探索各種優(yōu)化方式。在日前公布的一項研究中,團隊介紹了一個重要的進展:捕獲Codec Avatar曾經(jīng)需要170+個攝像頭的復(fù)雜裝置,但現(xiàn)在只需一臺帶RGBD攝像頭的智能手機(例如iPhone 12)。
延伸閱讀:Meta 50年征途:Codec Avatars,創(chuàng)造逼真虛擬角色
研究人員聲稱,基于智能手機的掃描過程平均只需要3.5分鐘。當(dāng)然,生成包含所有細節(jié)的虛擬數(shù)字人需要在一臺配置四個高端GPU的機器工作6個小時,但如果部署在產(chǎn)品之中,所述步驟可以發(fā)生在云端,而不是用戶本地設(shè)備。
就自我標(biāo)志而言,人臉比任何其他屬性都要重要,成為了“我是誰”和“誰是我”的關(guān)鍵判斷因素。所以,人類對人臉非常敏感。但對于生成圖像真實感的虛擬數(shù)字人而言,這提出了一個巨大的挑戰(zhàn),因為即便是微小的偏差都會大大減損真實感和沉浸感。
為了克服這一困難,傳統(tǒng)手段依賴于廣泛的個人特定數(shù)據(jù)捕獲和手動處理。這一過程成本高昂且非常耗時。在過去,要捕獲一個Codec Avatar,Meta需要一個配備171個高分辨率攝像頭的MUGSY裝置。
所以,如何降低捕獲要求成為了團隊一個亟需攻克的難題。在名為《Authentic Volumetric Avatars from a Phone Scan》的論文中,Meta表示現(xiàn)在只需一臺智能手機即可完成逼真的捕獲。
從有限數(shù)據(jù)自動創(chuàng)建Avatar的核心挑戰(zhàn)在于prior和evidence之間的取舍權(quán)衡。prior需要以一種輕量級的方式補充關(guān)于用戶外觀、幾何和運動的有限信息,比如說僅通過手機攝像頭,但這一般是以evidence作為代價,亦即真實感減損。
但盡管近年來行業(yè)已經(jīng)取得了長足的進展,但以高分辨率學(xué)習(xí)人臉的多樣性依然具有挑戰(zhàn)性。
對長尾進行建模是捕捉個人特質(zhì)(如特定雀斑、紋身或疤痕)所必需項,并要求具有更高維度的latent空間模型?,F(xiàn)代方法能夠產(chǎn)生似是而非的人臉幻覺,但無法以逼真的方式再現(xiàn)能夠用于識別別人的真實人類。有研究人員通過優(yōu)化latent空間以外的空間來實現(xiàn)出色的反向重建,但產(chǎn)生了強烈的偽影。
在這項研究中,研究人員打破了prior和evidence之間的取舍權(quán)衡,消除了產(chǎn)生非真實存在人類幻覺的能力。相反,他們使用手機數(shù)據(jù)來表示適應(yīng)。所述的方法包括三個主要要素:
- 一種通用prior,根據(jù)數(shù)百特征的高質(zhì)量多視圖視頻語料庫進行訓(xùn)練的hypernetwork;
- 一種根據(jù)手機掃描調(diào)節(jié)模型的配準(zhǔn)技術(shù);
- 一種基于反向渲染的技術(shù),用于根據(jù)附加表達數(shù)據(jù)微調(diào)個性化模型。
prior的架構(gòu)是基于這樣一個觀察:面部外觀和結(jié)構(gòu)的長尾的關(guān)鍵在于最適合直接從人類條件數(shù)據(jù)中提取,而不是從由低維特征嵌入(Embedding)重新提取的細節(jié)。與先前的研究接近,研究人員發(fā)現(xiàn)低維嵌入的性能迅速穩(wěn)定,未能捕獲個人特定的特質(zhì)。相反,他們發(fā)現(xiàn)通過增強現(xiàn)有方法,可以使用特定于個人的多尺度‘解結(jié)’bias map來忠實地重建特定于一個人的高LOD(Level of Detail)。
這種bias map可以使用U-Net-styre的網(wǎng)絡(luò)從用戶中性掃描的unwarpped紋理和幾何生成。通過這種方式,Meta的模型是一種可以接收用戶中性面部數(shù)據(jù),并以bias map的形式為個性化解碼器生成參數(shù)的hypernetwork??傊瑘F隊的通用prior和自適應(yīng)策略能夠從一次中性掃描中即時創(chuàng)建高度逼真的虛擬數(shù)字人,并只需小量帶表情掃描可以生成一個橫跨人類表達范圍的模型。
團隊表示,所述方法改進了手機捕獲的Avatar生成技術(shù),并且沒有顯著增加對用戶端的需求?,F(xiàn)有的方法可能會產(chǎn)生似是而非的幻覺,但其方法能夠產(chǎn)生看起來和動起來都像特定個人的Avatar。
另外,所述模型繼承了現(xiàn)有個人特定模型的速度、分辨率和渲染質(zhì)量,因為它采用了類似的架構(gòu)和渲染機制。所以,它非常適合交互式幀速率要求較高的應(yīng)用程序,比如說VR。
研究人員聲稱,基于智能手機的掃描過程平均只需要3.5分鐘。當(dāng)然,生成包含所有細節(jié)的虛擬數(shù)字人需要在一臺配置四個高端GPU的機器工作6個小時,但如果部署在產(chǎn)品之中,所述步驟可以發(fā)生在云端,而不是用戶本地設(shè)備。
另外,團隊坦誠目前的系統(tǒng)無法處理眼鏡或長發(fā),僅限于頭部,不包括身體其他部位。
相關(guān)論文:Authentic Volumetric Avatars from a Phone Scan
所以,要真正實現(xiàn)圖像真實感Avartar的民用,Meta依然需要繼續(xù)努力。在今年4月,Codec Avatar團隊負責(zé)人亞瑟·謝赫(Yaser Sheikh)曾表示,無法預(yù)測它離實際應(yīng)用尚有多遠的距離。然而,他指出在項目開始的時候,團隊距離目標(biāo)實現(xiàn)尚差“十個奇跡”,但他相信現(xiàn)在僅?!拔鍌€奇跡”。