人工智能(AI)驅動的視頻生成技術正快速發展,近日,一款名爲 Pusa 的開源視頻模型引起了業界的關注。該模型基於領先的開源視頻生成系統 Mochi 進行微調,不僅展現了尚可的效果,更重要的是,完全開源了包括訓練工具、數據集在內的整個微調過程,且訓練成本僅爲約100美元,爲視頻生成領域的研究和應用帶來了新的可能性。
基於Mochi微調,初步展現視頻生成能力
Pusa-V0.5是 Pusa 模型的早期預覽版本,其基礎模型是 Artificial Analysis Leaderboard 上領先的開源視頻生成系統 Mochi1-Preview。通過對 Mochi 進行微調,Pusa 能夠支持多種視頻生成任務,包括 文本到視頻生成、圖像到視頻轉換、幀插值、視頻過渡、無縫循環、擴展視頻生成等。儘管目前生成的視頻分辨率相對較低(480p),但其在運動保真度和提示遵循性方面表現出了潛力。
完全開源微調流程,助力社區共同發展
Pusa 項目最引人注目的特點之一是其完全開源性。開發者不僅可以獲取 完整的代碼庫和詳細的架構規範,還能瞭解到 全面的訓練方法。這意味着研究人員和開發者可以深入瞭解 Pusa 的微調過程,復現實驗,並在此基礎上進行進一步的創新和改進。這種開放的態度無疑將極大地促進社區的合作與發展。
令人驚訝的低成本訓練
與動輒花費數萬甚至數十萬美元訓練的大型視頻模型相比,Pusa 的訓練成本顯得格外引人注目。據介紹,Pusa 僅使用了 16塊 H800GPU,在約500次迭代後完成訓練,總訓練時長僅0.1k H800GPU 小時,總成本約爲0.1k 美元(即100美元)。如此低的訓練成本,爲更多研究機構和個人開發者參與到視頻模型的研究和開發中提供了機會。項目團隊也表示,通過單節點訓練和更高級的並行技術,效率還可以進一步提高。
Pusa 採用了幀級噪聲控制與向量化時間步的新穎擴散範式,這一方法最初在 FVDM 論文中提出,爲視頻擴散建模帶來了前所未有的靈活性和可擴展性。此外,Pusa 對基礎模型進行的調整是非破壞性的,這意味着它保留了原始 Mochi 的文本到視頻生成能力,只需進行輕微的微調即可。
項目:https://top.aibase.com/tool/pusa