AIbase報道 香港大学と快手可靈チームは最近、画期的な論文「Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval」を発表し、「Context-as-Memory」という革新的な方法を提案しました。この方法により、長動画生成におけるシーンの一貫性制御という核心的な問題が解決されました。
イノベーションの考え方:過去の文脈を「記憶」として扱う
この研究の核心的なイノベーションは、過去に生成された文脈を「記憶」として扱い、context learning技術によって文脈条件を学習することで、長動画の前後シーン間の一貫性を高精度で制御することです。研究チームは、動画生成モデルが動画データ内の3D事前知識を暗黙的に学習できることを発見しました。これは、明示的な3Dモデリングの補助を必要とせず、この考え方はグーグルのGenie3と一致しています。
技術的突破:FOVメモリ検索機構による効率向上
過去のフレームシーケンスが理論的には無限に長くなることによる計算負荷を解決するために、研究チームはカメラ軌跡の視野角(FOV)に基づくメモリ検索機構を提案しました。この機構は、すべての過去のフレームから現在の生成動画と関連性が高いフレームを知能的に選別し、メモリ条件として使用します。これにより、計算効率が著しく向上し、トレーニングコストも低下します。
動的な検索戦略を用いることで、システムはカメラ軌跡のFOV重複関係に基づいて予測フレームと過去のフレームの関連性を判断し、学習する必要のある文脈の数を大幅に減らすことができ、モデルのトレーニングおよび推論効率に飛躍的な向上をもたらします。
データ構築と応用場面
研究チームはUnreal Engine5を基に、多様なシーンと正確なカメラ軌跡のラベルが付与された長動画データセットを収集し、技術の検証に堅固な基礎を提供しました。ユーザーは初期画像を1枚だけ提供すれば、設定されたカメラ軌跡に沿って生成された仮想世界を自由に探索できます。
性能表現は既存の手法を上回る
実験結果によると、Context-as-Memoryは数十秒の時間スケールにおいて優れた静的シーンの記憶力を持ち、異なるシーンにおいても良好な汎化性を示しています。既存のSOTA手法と比較して、この技術は長動画生成におけるシーン記憶力において顕著な性能向上を達成しており、見たことのないオープンドメインのシーンでも記憶の連続性を効果的に維持することができます。
今回の突破は、AI動画生成技術がより長い時系列、より高い一貫性に向かって重要な一歩を踏み出したことを意味し、仮想世界構築や映画制作などの応用分野に新たな可能性を開拓しました。
