中国科学技術大学とビットテクノロジーは、画期的なエンド・トゥ・エンドの長動画生成モデルを間もなく共同でリリースする予定です。このモデルは、**数分間の長さ、480pの解像度、24フレーム/秒(fps)** の高品質な動画を直接生成でき、複数のカメラシーンの切り替えをサポートします。これは、国内の動画生成技術が世界的な生成AI競争において重要な突破を遂げたことを示しています。

この成果の核心的なイノベーションは、その下層アルゴリズムであるMoGA(Modular Global Attention)です。これは、長動画生成における文脈の拡張と計算コストの問題を解決するために設計された新しい注目機構です。MoGAの構造最適化により、モデルは最大580,000トークンの文脈情報を処理でき、計算コストを大幅に削減し、長時間かつ多様なシーンの動画生成が可能になります。

研究チームによると、従来の動画生成モデルはメモリや計算量の制限により、数秒程度のアニメーションGIFや短編映画しか生成できませんでした。しかし、MoGAの導入により、モデルは「一度に」複数のカメラシーンの切り替えや視覚的な物語が連続している「ミニショートフィルム」を生成できるようになり、生成型動画モデルの応用範囲を大幅に広げました。

また、MoGAは高いモジュール性と互換性を持ち、既存の効率的な高速化ライブラリ(FlashAttention、xFormers、DeepSpeedなど)と直接統合でき、訓練および推論の効率をさらに向上させます。これにより、この技術は単なる学術的突破だけでなく、産業での実装可能性も備えており、映画制作、広告生成、ゲームの過場映像、デジタル人間のコンテンツ制作などの分野で応用可能です。

OpenAI、Pika、Runwayなどの企業が次々と短い動画生成を進める中、中国科学技術大学とビットテクノロジーが今回リリースしたモデルは、国内で初めて本格的に数分間の長動画生成を実現したシステムとして注目されています。アルゴリズム、効率、拡張性の面での優位性から、中国が動画生成分野で世界の先頭に立つことになるかもしれません。

アドレス:https://jiawn-creator.github.io/mixture-of-groups-attention/