在數字內容創作領域,能夠根據文本描述生成視頻的技術一直是研究的熱點。如果我們能夠從參考視頻中克隆動作,然後無縫地應用到新的文本描述中,創造出全新的視頻內容,這將是多麼令人興奮的事情!這就是MotionClone技術所實現的奇蹟。

現有的文本到視頻(Text-to-Video, T2V)生成模型雖然取得了一定的進展,但在動作合成方面仍面臨挑戰。傳統的方法通常需要訓練或微調模型來編碼動作線索,但這些方法在處理未見過的動作類型時往往表現不佳。
MotionClone提出了一種無需訓練的框架,它可以直接從參考視頻中克隆動作,以控制文本到視頻的生成。該框架利用時間注意力機制來捕捉參考視頻中的動作,並引入了主要時間注意力引導,以減少噪聲或微小動作對注意力權重的影響。此外,爲了幫助生成模型合成合理的空間關係,並增強其遵循提示的能力,研究者們提出了一種位置感知的語義引導機制。
技術亮點:
時間注意力機制:通過視頻反演表示參考視頻中的動作。
主要時間注意力引導:只利用時間注意力權重中的主要組成部分進行動作引導的視頻生成。
位置感知的語義引導:利用參考視頻中的前景粗略位置和原始的無分類器引導特徵來指導視頻生成。
通過大量實驗,MotionClone在全局攝像機動作和局部對象動作方面表現出了卓越的能力,在動作保真度、文本對齊和時間一致性方面都有顯著的優勢。
MotionClone技術的問世,爲視頻創作領域帶來了革命性的變革。它不僅能夠提升視頻內容的生成質量,還能夠大幅度提高創作效率。隨着這項技術的不斷髮展和完善,我們有理由相信,未來的視頻創作將更加智能、個性化,甚至能夠實現“所想即所得”的創作願景。
項目地址:https://top.aibase.com/tool/motionclone
