機器之心報道
編輯:澤南、張倩
打開一個數(shù)字人,里面全是生成式 AI。
9 月 23 日晚,杭州亞運會開幕式點燃主火炬的環(huán)節(jié),上億線上數(shù)字火炬手的「小火苗」匯聚在錢塘江上形成一個數(shù)字人形象。隨后,數(shù)字人火炬手和現(xiàn)場的第六棒火炬手走到火炬臺前,共同點燃了主火炬。
作為開幕式的核心創(chuàng)意,數(shù)實互聯(lián)的火炬點燃形式?jīng)_上了熱搜,引發(fā)了人們的重點關(guān)注。
上億人參與的數(shù)字人點火是一個前所未有的創(chuàng)舉,涉及了大量先進且復雜的技術(shù),其中最重要的莫過于如何讓數(shù)字人「動起來」。不難看出,在生成式 AI 與大模型迅速發(fā)展,數(shù)字人研究也出現(xiàn)了更多新變化。
在 10 月初即將舉行的全球計算機視覺頂會 ICCV 2023 上,我們關(guān)注到一篇生成 3D 數(shù)字人運動研究被大會收錄。相關(guān)論文題為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學、螞蟻集團聯(lián)合發(fā)布。
據(jù)介紹,這項研究一定程度上解決了數(shù)字人遠距離合成復雜運動的問題,能做到原有模型或路徑規(guī)劃無法實現(xiàn)的效果。數(shù)字人驅(qū)動相關(guān)的技術(shù),也被用在了亞運會 1 億數(shù)字人線上傳遞。
生成式 AI 驅(qū)動,讓數(shù)字人動起來
很多時候,我們需要在給定的 3D 場景中合成 3D 人體運動,使虛擬人能夠自然地在場景中漫步并與物體交互,這種效果在 AR/VR、電影制作和視頻游戲中都存在多種應用。
在這里,傳統(tǒng)的角色控制運動生成方法旨在由用戶的控制信號引導生成短期或重復的運動,新研究則專注于在給定起始位置和目標對象模型的情況下生成更加長時間的人機交互內(nèi)容。
這種思路雖然效果更好,但顯然挑戰(zhàn)更大。首先,人與物體的交互應該是連貫的,這需要對人與物體之間的遠程交互進行建模的能力。其次,在內(nèi)容生成的背景下,生成模型應該能夠合成大小不同的運動,因為真人存在多種接近目標對象并與之交互的方式。
圖 1. 人與物體交互形象的生成。給定一個對象,新方法首先預測一組里程碑(milestone)事件,其中環(huán)表示位置,粉紅色衣服的人代表原姿勢。算法在里程碑之間填充動作。該圖顯示新方法使用同一對象生成不同的里程碑和動作。時間的流動用顏色代碼顯示,越深的藍色表示越往后的幀。
在生成數(shù)字人動作的方法上,現(xiàn)有的合成方法大致可分為在線生成和離線生成。大多數(shù)在線方法側(cè)重于角色的實時控制。給定一個目標對象,他們通常使用自回歸模型通過反饋預測來循環(huán)生成未來的運動。盡管這種方法已廣泛用于視頻游戲等交互場景,但其質(zhì)量對于長期生成來說還難以令人滿意。
為了提高運動質(zhì)量,最近的一些離線方法采用多級框架,首先生成軌跡,然后合成運動。盡管這種策略可以產(chǎn)生合理的路徑,但路徑多樣性是有限的。
在新研究中,作者提出了一種新的離線方法來綜合長期且多樣化的人與物體交互,其創(chuàng)新在于分層生成策略,該策略首先預測一組里程碑,然后生成里程碑之間的人體動作。
具體來說,給定起始位置和目標對象,作者設計了一個里程碑生成模塊來合成沿著運動軌跡的一組節(jié)點,每個里程碑對局部姿勢進行編碼并指示人體運動過程中的過渡點?;谶@些里程碑,算法采用運動生成模塊來生成完整的運動序列。由于這些里程碑的存在,我們可以將長序列的生成簡化為合成幾個短運動序列。
此外,每個里程碑的局部姿態(tài)是由考慮全局依賴性的 transformer 模型生成的,進而產(chǎn)生時間一致的結(jié)果,這進一步有助于相干運動。
除了分層生成框架之外,研究人員還進一步利用擴散模型來合成人與物體的交互。此前的一些運動合成擴散模型結(jié)合了 transformer 和去噪擴散概率模型(DDPM)。
值得一提的是,由于運動序列較長,直接將它們應用到新設置中需要大量的計算,可能導致 GPU 內(nèi)存爆炸。由于新的分層生成框架將長期生成轉(zhuǎn)換為多個短序列的合成,因此所需的 GPU 內(nèi)存減少到了與短期運動生成相同的水平。
因此,研究者可以有效地利用 Transformer DDPM 來合成長期運動序列,從而提高生成質(zhì)量。
為此,研究者設計了一個分層運動生成框架,如下圖所示。
首先,他們使用 GoalNet 來預測對象上的交互目標,然后生成目標姿態(tài)來顯式建模人與物體的交互,接下來使用里程碑生成模塊來估計里程碑的長度,使其產(chǎn)生從起點到目標的里程碑軌跡,并放置里程碑姿態(tài)。
這樣一來,長距離運動生成就被分解為多個短距離運動生成的組合。最后,作者設計了一個運動生成模塊,用于合成里程碑之間的軌跡并填充動作。
AI 姿態(tài)生成
研究者將人與物體互動并保持靜止的姿態(tài)稱為目標姿態(tài)。之前,大多數(shù)方法使用 cVAE 模型生成人體姿態(tài),但研究者發(fā)現(xiàn)該方法在自己的研究中表現(xiàn)不佳。
為了克服這一挑戰(zhàn),他們引入了 VQ-VAE 模型來建模數(shù)據(jù)分布,該模型利用離散表示將數(shù)據(jù)聚類在有限的點集中。此外,根據(jù)觀察,不同的人體姿態(tài)可能具有相似的屬性(比如人在坐下時,手的動作可能不相同,但腿部位置可能相同),于是,他們把關(guān)節(jié)分為 L (L = 5) 個不同的非重疊組。
如圖 3 所示,目標姿態(tài)被分成獨立的關(guān)節(jié)組。
根據(jù)起始姿態(tài)和目標姿態(tài),我們可以讓算法生成里程碑軌跡,并合成里程碑處的局部姿勢。由于運動數(shù)據(jù)的長度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能繞著椅子慢慢走一圈后坐下),因此需要預測里程碑的長度,用 N 表示。然后,合成 N 個里程碑點,并在這些點上放置局部姿態(tài)。
最后是動作生成,研究者用到的方法不是逐幀預測動作,而是根據(jù)生成的里程碑分層合成整個序列。他們首先生成軌跡,然后合成動作。具體來說,在兩個連續(xù)的里程碑內(nèi),他們首先完成軌跡。然后,在連續(xù)里程碑姿態(tài)的引導下填充運動。這兩個步驟分別使用兩個 Transformer DDPM 完成。
對于每個步驟,研究者都會精心設計 DDPM 的條件,以生成目標輸出。
效果領(lǐng)先
研究人員在 SAMP 數(shù)據(jù)集上比較了不同方法的結(jié)果??梢钥吹?,論文所提方法具有更低的 FD、更高的用戶研究得分和更高的 APD。此外,他們的方法實現(xiàn)了比 SAMP 更高的軌跡多樣性。
新方法在雜亂的場景中也可以生成令人滿意的結(jié)果。該方法生成的穿模的幀(frames with penetration)百分比為 3.8%,SAMP 為 4.9%。
在 SAMP、COUCH 等數(shù)據(jù)集上,論文所提到的方法均取得了比基線方法更好的結(jié)果。
完成全鏈路布局
數(shù)字人是融合語音、語義、視覺等多模態(tài)技術(shù)的集大成者。在最近生成式 AI 突破的同時,數(shù)字人領(lǐng)域正在經(jīng)歷跨越式發(fā)展,過去需要手工制作的建模、生成交互、渲染等環(huán)節(jié)正在全面 AI 化。
隨著工程師不斷優(yōu)化,這項技術(shù)在移動端的體驗也在變得更好,剛剛結(jié)束的亞運火炬線上傳遞活動就是個很好的例子:想要成為火炬手,我們只需要點開支付寶 App 的小程序。
據(jù)說,為確保開幕式項目順暢進行,螞蟻集團的工程師們針對上百款不同型號的手機進行了超過 10 萬次測試,敲下了 20 多萬行代碼,并通過自研 Web3D 互動引擎 Galacean、AI 數(shù)字人、云服務、區(qū)塊鏈等多種技術(shù)結(jié)合,保證了人人都可以成為數(shù)字火炬手,參與火炬?zhèn)鬟f。亞運數(shù)字火炬手平臺,能做到億級用戶規(guī)模覆蓋,并支持 97% 的常見智能手機設備。
為了給數(shù)字火炬手們帶來真實的參與感,螞蟻的技術(shù)團隊開發(fā)了 58 個捏臉控制器,通過 AI 算法根據(jù)人臉識別畫出數(shù)字火炬手的面孔之后,可對臉型、頭發(fā)、鼻子、嘴巴、眉毛等進行調(diào)整,實現(xiàn)自由換裝,該技術(shù)可提供 2 萬億種數(shù)字形象。
另外,開幕式點火儀式后,每位數(shù)字火炬手都可以收到一張數(shù)字點火專屬證書,繪有每位數(shù)字火炬手獨一無二的形象,這張證書會通過分布式技術(shù)存儲在區(qū)塊鏈上。
從研究論文內(nèi)容和亞運項目不難看出,背后都有完整數(shù)字人技術(shù)體系的支撐。據(jù)了解,螞蟻集團正積極開展數(shù)字人技術(shù)探索,并已完成數(shù)字人的全鏈路核心技術(shù)自研布局。
與市面上多數(shù)公司不同,螞蟻集團的數(shù)字人技術(shù)自研,選擇與生成式 AI 結(jié)合的發(fā)展方向。從技術(shù)部署上,則涵蓋數(shù)字人建模、渲染、驅(qū)動、交互的全生命周期,結(jié)合 AIGC 與大模型,大幅降低了數(shù)字人全鏈路生產(chǎn)成本。目前可支持 2D、3D 數(shù)字人,提供了播報型、交互型等多種解決方案。
根據(jù)公開資料,可以總結(jié)螞蟻數(shù)字人平臺目前具備四方面技術(shù)優(yōu)勢和特色:
低成本建模:與清華大學合作推出亞洲人臉 3D 參數(shù)化模型,基于照片重建 3D 人臉,更符合亞洲人臉型特點。
生成式驅(qū)動:驅(qū)動生成和動作捕捉結(jié)合,對比傳統(tǒng)動作制作流程有效降低成本和提升動作豐富度。
高適配渲染:自研 Web3D 渲染引擎 Galacean,覆蓋 97% 常見手機終端;在神經(jīng)渲染方面搭建了動態(tài)驅(qū)動和靜態(tài)建模解耦的 NeRF 框架,應用于數(shù)字人動態(tài)視頻場景。
智能化交互:基于預訓練的音色克隆,支持分鐘級音頻輸入生成個性化數(shù)字人音色;并布局基于大模型的數(shù)字人交互。
亞運會開幕式之前,中國信通院發(fā)布最新數(shù)字人標準符合性驗證結(jié)果,螞蟻集團靈境數(shù)字人平臺,成為業(yè)界首個通過金融數(shù)字人評測的產(chǎn)品,獲得了最高評級「杰出級 (L4)」。
而在亞運之外,螞蟻數(shù)字人平臺還支持了螞蟻集團支付寶、數(shù)字金融、政務、五福等業(yè)務,并在今年開始應用于短視頻、直播、小程序等載體向合作伙伴提供基礎服務。
可以預見在不久之后,伴隨生成式 AI 加持的數(shù)字人不斷升級,我們也會在更多場景中體驗到更好的交互,真正進入數(shù)實融合的智能生活。