極客號(Daydx.com)9月18日 消息:谷歌團隊最新提出「生成圖像動力學」,這項研究提出了一種基于圖像空間的場景動力學先驗模型。該模型可以將單張靜態(tài)圖片轉換成無縫循環(huán)視頻,或者用于與圖片中的對象進行交互。
項目地址:https://generative-dynamics.github.io/#demo
研究人員首先從包含自然振蕩運動的真實視頻中,如樹葉搖曳、花朵飄動、蠟燭跳動和衣物飄揚等,提取運動軌跡。然后利用這些軌跡數據訓練模型學習圖像動力學的先驗知識。對于任意輸入圖片,模型可以預測每個像素的長期運動表示,作者稱之為神經隨機運動紋理。這些表示隨后轉換為密集的運動軌跡,可生成整段視頻。配合圖像渲染模塊,這些軌跡可以用于各種下游應用,如將靜態(tài)圖片轉換成無縫循環(huán)視頻,或者讓用戶可以與圖片中的對象進行交互。
利用神經隨機運動紋理,研究人員可以模擬對象對用戶交互的響應。用戶可以在圖片中拖動一個點,然后釋放手指,場景會根據點的位置和方向產生相應運動。用戶還可以點擊選擇不同的圖片進行交互。
通過調整運動紋理的振幅,研究人員可以放大或縮小物體的運動效果。他們還可以通過插值預測的運動紋理來生成慢動作視頻。
該方法自動將單張靜態(tài)圖片轉換成無縫循環(huán)視頻,具有廣闊的應用前景。它為創(chuàng)作更加逼真的數字內容提供了可能,如將電影片段的單幀轉換為可交互的動態(tài)場景。該研究為基于單張圖片合成視頻開辟了新的思路。
特點:
(1)從視頻中提取自然運動軌跡,訓練獲得圖像動力學先驗模型
(2)對靜態(tài)圖片預測像素級長期運動表示,即神經隨機運動紋理
(3)將運動紋理轉換為密集運動軌跡,合成動態(tài)視頻
(4)支持用戶與圖片中的對象交互
(5)調整運動紋理振幅來控制運動效果
(6)通過插值產生慢動作視頻