極客號(Daydx.com)8月18日 消息:DragNUWA 是一種基于擴散算法的視頻生成模型,DragNUWA 模型旨在解決視頻生成中的精細控制問題。該模型通過引入文本、圖像和軌跡信息,并從語義、空間和時間角度提供精細控制。
論文地址:https://arxiv.org/pdf/2308.08089.pdf
模型中的軌跡建模包括軌跡采樣器(TS)、多尺度融合(MF)和自適應訓練(AT)策略。實驗證明 DragNUWA 模型在視頻生成的精細控制方面表現(xiàn)出色。
核心功能:
DragNUWA 在語義、空間和時間維度上同時引入文本、圖像和軌跡信息,提供了精細控制視頻生成的能力。
它采用軌跡采樣器、多尺度融合和自適應訓練策略,實現(xiàn)了開放域軌跡控制和生成連貫的視頻。該模型在實驗中展現(xiàn)出優(yōu)越的細粒度控制性能。