AI(人工知能)駆動の動画生成技術は急速に発展しており、最近、Pusaというオープンソースの動画モデルが業界の注目を集めています。このモデルは、最先端のオープンソース動画生成システムMochiを微調整したもので、まずまずの結果を示しているだけでなく、トレーニングツールやデータセットを含む微調整プロセス全体を完全にオープンソース化しており、トレーニングコストはわずか約100ドルです。これにより、動画生成分野の研究と応用における新たな可能性が開かれます。

Mochiをベースにした微調整、動画生成能力の初期段階を示す
Pusa-V0.5はPusaモデルの早期プレビュー版で、基礎モデルはArtificial Analysis Leaderboardでトップクラスのオープンソース動画生成システムMochi1-Previewです。Mochiを微調整することで、Pusaはテキストから動画生成、画像から動画変換、フレーム補間、動画トランジション、シームレスループ、動画拡張生成など、様々な動画生成タスクに対応できます。現在の動画解像度は比較的低い(480p)ものの、モーションの忠実度とプロンプトへの適合性において潜在能力を示しています。
完全オープンソースの微調整プロセス、コミュニティの発展を促進
Pusaプロジェクトの最も注目すべき特徴の一つは、その完全なオープンソース性です。開発者は完全なコードベースと詳細なアーキテクチャ仕様を入手できるだけでなく、包括的なトレーニング方法も知ることができます。これは、研究者や開発者がPusaの微調整プロセスを深く理解し、実験を再現し、その上で更なる革新と改良を行うことができることを意味します。このようなオープンな姿勢は、コミュニティの協力と発展を大いに促進するでしょう。
驚くほど低いトレーニングコスト
数万ドル、場合によっては数十万ドルもの費用がかかることが多い大規模な動画モデルと比較して、Pusaのトレーニングコストは非常に注目に値します。説明によると、Pusaは16台のH800 GPUを使用し、約500回の反復でトレーニングを完了し、総トレーニング時間はわずか0.1k H800 GPU時間、総コストは約0.1kドル(つまり100ドル)です。このようにトレーニングコストが低いことで、より多くの研究機関や個人開発者が動画モデルの研究開発に参加できるようになります。プロジェクトチームは、シングルノードトレーニングとより高度な並列技術によって、効率をさらに向上させることができると述べています。
Pusaはフレームレベルのノイズ制御とベクトル化されたタイムステップという斬新な拡散パラダイムを採用しており、この手法は当初FVDM論文で提案されたもので、動画拡散モデリングに前例のない柔軟性と拡張性をもたらします。さらに、Pusaは基礎モデルに対する調整を非破壊的に行うため、元のMochiのテキストから動画への生成能力を維持しており、わずかな微調整だけで済みます。
