隨着人工智能技術的飛速發展,圖像到視頻(I2V)的生成技術已成爲研究的熱點。最近,由Xiaoyu Shi、Zhaoyang Huang等研究者組成的團隊推出了一種名爲Motion-I2V的新型框架,該框架通過顯式運動建模,實現了更爲一致和可控的圖像到視頻生成。這一技術突破,不僅提升了視頻生成的質量和一致性,還爲用戶帶來了前所未有的控制體驗。

在圖像到視頻的生成領域,如何保持生成視頻的連貫性和控制性一直是技術難題。傳統的I2V方法直接學習圖像到視頻的複雜映射,而Motion-I2V框架則創新性地將這一過程分解爲兩個階段,並在兩個階段中都引入了明確的運動建模。

第一階段,Motion-I2V提出了基於擴散的運動場預測器,專注於推導參考圖像像素的軌跡。這一階段的關鍵在於,通過參考圖像和文本提示,預測參考幀與所有未來幀之間的運動場圖。第二階段則負責將參考圖像的內容傳播到合成幀中。通過引入一種新穎的運動增強時序層,增強了1-D時序注意力,擴大了時間感受野,並減輕了直接學習複雜時空模式的複雜性。

在與現有方法的比較中,Motion-I2V展現出了明顯的優勢。無論是在“快速行駛的坦克”、“藍色寶馬車快速行駛”、“三個清晰的冰塊”還是“爬行的蝸牛”等場景下,Motion-I2V都能生成更加一致的視頻,即使在大範圍的運動和視角變化下也能保持高質量輸出。

此外,Motion-I2V還支持用戶通過稀疏軌跡和區域註釋來精確控制運動軌跡和運動區域,提供了比僅依賴文本指令更多的控制能力。這不僅提升了用戶的交互體驗,也爲視頻生成的定製化和個性化提供了可能。

image.png

值得一提的是,Motion-I2V的第二階段還自然支持零樣本視頻到視頻的轉換,這意味着在沒有訓練樣本的情況下,也能實現不同風格或內容的視頻轉換。

image.png

 Motion-I2V框架的推出,標誌着圖像到視頻生成技術邁入了一個新的階段。它不僅在質量和一致性上取得了顯著提升,更在用戶控制性和個性化定製方面展現了巨大潛力。隨着技術的不斷成熟和完善,我們有理由相信,Motion-I2V將在影視製作、虛擬現實、遊戲開發等多個領域發揮重要作用,爲人們帶來更加豐富和生動的視覺體驗。

文檔地址:https://xiaoyushi97.github.io/Motion-I2V/ 

github地址: https://github.com/G-U-N/Motion-I2V