バイチュンのスマートクリエイションチームと清华大学が共同で開発した、HuMoというオープンソースフレームワークは、人間中心の動画生成(HCVG: Human-Centric Video Generation)分野の進歩を促進することを目的としています。HuMoフレームワークは、テキスト、画像、音声の3つの情報を取り扱う強力なマルチモーダル入力処理能力を持ち、協調して高品質な動画を生成します。

HuMoという名前の「Human-Modal」は、人間およびその活動に焦点を当てた考えを適切に反映しています。このフレームワークの成功のポイントは、高品質なデータセットを構築し、画期的な段階的なトレーニング方法を採用したことにあるのです。このトレーニング方式により、HuMoは既存の専門的な手法を超えて、480Pや720Pの解像度の動画を生成でき、最大97フレーム、1秒あたり25フレームの速度でコントロール可能な人物動画を出力できます。

image.png

フレームワークの主な利点は、画期的なデータ処理プロセス、柔軟な推論戦略、そして段階的なマルチモーダルトレーニング方法です。これらの技術の統合により、生成される動画の質が向上し、処理速度も向上するため、HuMoは実際の応用においてより優れた性能を発揮します。

開発者や研究者にとって、HuMoは単なる新しいツールではなく、さまざまなシナリオに対応できる柔軟なソリューションです。プロジェクトのオープンソースのアドレスを通じて、より多くの人がこの技術の研究と応用に参加できるようになり、今後のマルチモーダル動画生成の可能性を広げていきます。

論文のアドレス:https://arxiv.org/pdf/2509.08519