最近、ビットテイクと南洋理工大学の研究チームは、AIで動画を生成する際のキャラクターが異なるシーンで外見が不一致になる問題を解決するための新しいシステム「StoryMem」を開発しました。このシステムは、動画を生成する過程で重要なフレームを保存し、後続のシーン生成時に参照することで、キャラクターや環境の一貫性を保ちます。

現在のAI動画生成モデル、例えばSora、Kling、Veoなどは、短いセグメントの生成において優れた性能を示していますが、複数のシーンを連続した物語にまとめた場合、キャラクターの外見の変化や環境の不一致などの問題があります。従来の解決策は、大量の計算リソースを必要としたり、シーンをつなぐ際に一貫性を失うことがあります。
StoryMemシステムは、新しいアプローチを採用しています。動画を生成する過程で、視覚的に重要なフレームをメモリに保存し、新しいシーンを生成するときに参照します。このシステムのアルゴリズムは、重要なフレームを選択して、メモリの管理効率を確保しながら物語の冒頭の重要な視覚情報を保持します。新しいシーンを生成するとき、これらの保存されたフレームは、現在作成中の動画と一緒にモデルに入力され、生成されるコンテンツの一貫性を確保します。
実際のトレーニングでは、StoryMemは低ランク適応(LoRA)技術を使用して、アリババがオープンソースで公開したモデル「Wan2.2-I2V」に適応させました。研究チームは、40万本の5秒間の動画セグメントを使用してトレーニングを行い、これらのセグメントを視覚的類似性に基づいてグループ化することで、スタイルが一貫した継続的な動画を生成できるようにしました。
研究結果によると、StoryMemはシーン間の一貫性において顕著な改善を示しており、元のモデルよりも28.7%のパフォーマンス向上を達成しました。さらに、ユーザー調査では、参加者がStoryMemによって生成された結果を好む傾向があり、美しさと一貫性の両面でより良い結果を示しているとされています。
しかし、研究チームはこのシステムのいくつかの制限点も指摘しています。例えば、複数のキャラクターを含む複雑なシーンでは、キャラクターの視覚的特徴が誤って適用される可能性があります。そのため、各プロンプトでキャラクターを明確に記述することを推奨しています。
プロジェクト:https://kevin-thu.github.io/StoryMem/
ポイント:
🌟 StoryMemシステムは、AI動画生成におけるキャラクターと環境の不一致問題を効果的に解決できます。
📊 重要なフレームを保存することで、StoryMemはシーン間の一貫性において既存のモデルより28.7%高い性能を示しています。
🛠️ このシステムは複雑なシーンを処理する際には課題を抱えています。キャラクターを明確に記述することで、生成効果を向上させる必要があります。
