AIで生成された、リアルだが何か物足りない短編動画に飽きていませんか?革新的な技術「Long Context Tuning(LCT)」が登場し、AI動画生成モデルに映画やドラマのように複数のシーンを繋ぎ、自由に切り替えながら、より一貫性があり、魅力的なストーリーを構築する能力を与えました。

従来、SoRA、Kling、Gen3などの最先端AI動画生成モデルは、1分間のリアルな単一シーン動画を作成できました。しかし、映画のワンシーンのように複数のシーンで構成されるストーリー動画のニーズとの間には大きな隔たりがありました。映画のシーンは通常、同じ一貫した出来事を捉えた複数の単一シーン動画で構成されています。
例えば、「タイタニック」でジャックとローズが甲板で出会う名シーンは、ジャックが振り返るクローズアップ、ローズが話すミドルショット、ローズがジャックに近づくワイドショット、そしてジャックがローズを後ろから抱きしめるクローズアップという4つの主要なシーンで構成されています。このようなシーンを生成するには、異なるシーン間で視覚的な外観(人物の特徴、背景、光と色調の一貫性など)と時間的な動態(人物の動作のリズムやカメラの動きなど)を高度に維持し、ストーリーの流れを確保する必要があります。
単一シーン生成と複数シーンのストーリーの間のギャップを埋めるため、様々な手法が提案されてきましたが、多くの場合、限界がありました。いくつかの手法は、シーン間の視覚的一貫性を維持するために、人物のアイデンティティや背景などの重要な視覚要素を入力に依存していましたが、光や色調などのより抽象的な要素を制御することは困難でした。また、一連の一貫性のあるキーフレームを生成し、次に画像から動画(I2V)モデルを使用して各シーンを個別に合成する手法もありましたが、シーン間の一貫性を維持することが難しく、また、疎なキーフレームは条件の有効性を制限していました。
LCTの登場は、これらの問題を解決するためのものです。これは、事前に学習された単一シーン動画拡散モデルに「超強力な頭脳」を取り付けたようなもので、より長いコンテキスト情報を処理し、シーンレベルの動画データから直接シーン間の一貫性を学習できます。LCTの中核となるのは、以下のいくつかの革新的な設計です。
全注意機構の拡張:LCTは、単一シーンに適用されていた全注意機構を、シーン内のすべてのシーンを含むように拡張します。つまり、モデルは動画を生成する際に、シーン全体の視覚情報とテキスト情報を同時に「注目」し、シーン間の依存関係をより適切に理解し、維持することができます。
インターリーブされた3D位置埋め込み:モデルが異なるシーン内のトークン(テキストと動画の基本単位)を区別できるようにするために、LCTはインターリーブされた3D回転位置埋め込み(RoPE)を導入しています。これは、各シーンとその内部のトークンに独自の「ラベル」を付けるようなもので、モデルは各シーンの独立性を認識しながら、シーン全体の相対的な位置関係を理解することができます。
非同期ノイズ戦略:LCTは革新的に、各シーンに独立した拡散時間ステップを適用します。これにより、トレーニング中にモデルは異なるシーン間の動的な依存関係を学習し、シーン間の情報をより効果的に活用できます。例えば、あるシーンのノイズレベルが低い場合、それは自然に視覚情報の豊富な情報源となり、ノイズレベルが高い他のシーンのノイズ除去プロセスを導くことができます。この戦略は、後続の視覚条件入力と共同生成にも役立ちます。
実験結果によると、LCTで調整された単一シーンモデルは、一貫性のある複数シーンのシーン生成において優れた性能を示し、いくつかの驚くべき新しい能力を示しました。例えば、与えられたキャラクターのアイデンティティと環境画像に基づいて組み合わせ生成を行うことができ、モデルがそのようなタスクの専門的なトレーニングを受けていない場合でも可能です。さらに、LCTモデルは自己回帰的なシーン拡張をサポートしており、連続的な単一シーンの拡張とシーン切り替えを伴う複数シーンの拡張の両方が実現可能です。この機能は、長編動画の作成に特に役立ちます。なぜなら、長編動画の生成を複数のシーンセグメントに分割することで、ユーザーが対話的に修正しやすくなるからです。
さらに、研究者たちは、LCTの後、双方向注意機構を持つモデルは、コンテキスト因果注意機構にさらに微調整できることを発見しました。この改良された注意機構は、各シーン内部では双方向の注意を維持していますが、シーン間では情報は先行するシーンから後続のシーンにのみ流れることができます。この単方向の情報の流れにより、自己回帰生成プロセスでKV-cache(一種のキャッシュ機構)を効率的に活用できるようになり、計算コストを大幅に削減できます。
図1に示すように、LCT技術は短編映画制作に直接適用でき、シーンレベルの動画生成を実現します。さらにエキサイティングなのは、モデルがこれらの特定のタスクに対して訓練されていない場合でも、インタラクティブな複数シーンの演出、単一シーンの拡張、ゼロショットの組み合わせ生成など、様々な新しい能力を生み出したことです。図2は、グローバルプロンプト(キャラクター、環境、ストーリーの概要を記述)と、各シーンの具体的なイベントの説明を含む、シーンレベルの動画データの例を示しています。
要約すると、Long Context Tuning(LCT)は、単一シーン動画拡散モデルのコンテキストウィンドウを拡張することにより、シーンレベルの一貫性をデータから直接学習できるようにし、より実用的な視覚コンテンツの作成のための新しい道を切り開きました。この技術は、AI生成動画のストーリーテリング能力と一貫性を向上させるだけでなく、将来の長編動画生成とインタラクティブな動画編集のための新しいアイデアも提供します。LCTなどの技術の進歩により、将来の動画制作はよりインテリジェントで創造的なものになると確信しています。
プロジェクトアドレス:https://guoyww.github.io/projects/long-context-video/
