(映維網Nweon 2022年06月14日)自2019年正式公開介紹旨在創(chuàng)建圖片真實感虛擬數字人的Codec Avatar項目以來,Meta就一直在積極探索各種優(yōu)化方式。在日前公布的一項研究中,團隊介紹了一個重要的進展:捕獲Codec Avatar曾經需要170+個攝像頭的復雜裝置,但現(xiàn)在只需一臺帶RGBD攝像頭的智能手機(例如iPhone 12)。
延伸閱讀:Meta 50年征途:Codec Avatars,創(chuàng)造逼真虛擬角色
研究人員聲稱,基于智能手機的掃描過程平均只需要3.5分鐘。當然,生成包含所有細節(jié)的虛擬數字人需要在一臺配置四個高端GPU的機器工作6個小時,但如果部署在產品之中,所述步驟可以發(fā)生在云端,而不是用戶本地設備。
就自我標志而言,人臉比任何其他屬性都要重要,成為了“我是誰”和“誰是我”的關鍵判斷因素。所以,人類對人臉非常敏感。但對于生成圖像真實感的虛擬數字人而言,這提出了一個巨大的挑戰(zhàn),因為即便是微小的偏差都會大大減損真實感和沉浸感。
為了克服這一困難,傳統(tǒng)手段依賴于廣泛的個人特定數據捕獲和手動處理。這一過程成本高昂且非常耗時。在過去,要捕獲一個Codec Avatar,Meta需要一個配備171個高分辨率攝像頭的MUGSY裝置。
所以,如何降低捕獲要求成為了團隊一個亟需攻克的難題。在名為《Authentic Volumetric Avatars from a Phone Scan》的論文中,Meta表示現(xiàn)在只需一臺智能手機即可完成逼真的捕獲。
從有限數據自動創(chuàng)建Avatar的核心挑戰(zhàn)在于prior和evidence之間的取舍權衡。prior需要以一種輕量級的方式補充關于用戶外觀、幾何和運動的有限信息,比如說僅通過手機攝像頭,但這一般是以evidence作為代價,亦即真實感減損。
但盡管近年來行業(yè)已經取得了長足的進展,但以高分辨率學習人臉的多樣性依然具有挑戰(zhàn)性。
對長尾進行建模是捕捉個人特質(如特定雀斑、紋身或疤痕)所必需項,并要求具有更高維度的latent空間模型?,F(xiàn)代方法能夠產生似是而非的人臉幻覺,但無法以逼真的方式再現(xiàn)能夠用于識別別人的真實人類。有研究人員通過優(yōu)化latent空間以外的空間來實現(xiàn)出色的反向重建,但產生了強烈的偽影。
在這項研究中,研究人員打破了prior和evidence之間的取舍權衡,消除了產生非真實存在人類幻覺的能力。相反,他們使用手機數據來表示適應。所述的方法包括三個主要要素:
- 一種通用prior,根據數百特征的高質量多視圖視頻語料庫進行訓練的hypernetwork;
- 一種根據手機掃描調節(jié)模型的配準技術;
- 一種基于反向渲染的技術,用于根據附加表達數據微調個性化模型。
prior的架構是基于這樣一個觀察:面部外觀和結構的長尾的關鍵在于最適合直接從人類條件數據中提取,而不是從由低維特征嵌入(Embedding)重新提取的細節(jié)。與先前的研究接近,研究人員發(fā)現(xiàn)低維嵌入的性能迅速穩(wěn)定,未能捕獲個人特定的特質。相反,他們發(fā)現(xiàn)通過增強現(xiàn)有方法,可以使用特定于個人的多尺度‘解結’bias map來忠實地重建特定于一個人的高LOD(Level of Detail)。
這種bias map可以使用U-Net-styre的網絡從用戶中性掃描的unwarpped紋理和幾何生成。通過這種方式,Meta的模型是一種可以接收用戶中性面部數據,并以bias map的形式為個性化解碼器生成參數的hypernetwork??傊?,團隊的通用prior和自適應策略能夠從一次中性掃描中即時創(chuàng)建高度逼真的虛擬數字人,并只需小量帶表情掃描可以生成一個橫跨人類表達范圍的模型。
團隊表示,所述方法改進了手機捕獲的Avatar生成技術,并且沒有顯著增加對用戶端的需求。現(xiàn)有的方法可能會產生似是而非的幻覺,但其方法能夠產生看起來和動起來都像特定個人的Avatar。
另外,所述模型繼承了現(xiàn)有個人特定模型的速度、分辨率和渲染質量,因為它采用了類似的架構和渲染機制。所以,它非常適合交互式幀速率要求較高的應用程序,比如說VR。
研究人員聲稱,基于智能手機的掃描過程平均只需要3.5分鐘。當然,生成包含所有細節(jié)的虛擬數字人需要在一臺配置四個高端GPU的機器工作6個小時,但如果部署在產品之中,所述步驟可以發(fā)生在云端,而不是用戶本地設備。
另外,團隊坦誠目前的系統(tǒng)無法處理眼鏡或長發(fā),僅限于頭部,不包括身體其他部位。
相關論文:Authentic Volumetric Avatars from a Phone Scan
所以,要真正實現(xiàn)圖像真實感Avartar的民用,Meta依然需要繼續(xù)努力。在今年4月,Codec Avatar團隊負責人亞瑟·謝赫(Yaser Sheikh)曾表示,無法預測它離實際應用尚有多遠的距離。然而,他指出在項目開始的時候,團隊距離目標實現(xiàn)尚差“十個奇跡”,但他相信現(xiàn)在僅?!拔鍌€奇跡”。