AIビデオ生成分野において長年解決されてこなかった「キャラクターの変化」と「環境のちらつき」の問題に対して、バイトダンスと南洋理工大学の研究チームは最近、StoryMemという革新的なシステムを共同で発表しました。このシステムは、人間の記憶に似たメカニズムを取り入れることで、長い動画におけるシーン間の作成の一貫性を高め、SoraやKlingなどのモデルが複数のシーンを描写する際に起こりやすい視覚的なずれの問題を解決しています。

StoryMemのコアロジックはそのユニークな「混合メモリーライブラリ」の設計にあります。研究者らによると、すべてのシーンを単一のモデルに強制的に詰め込むと計算コストが急激に増加しますが、セグメントごとに生成すると関連性が失われます。そのため、StoryMemは以前のシーンのキーフレームを参照として選択的に保存しています。このアルゴリズムは二つのフィルターを使用し、まずセマンティック分析によって視覚的なコアフレームを選定し、次に品質検出によってぼやけた画像を除外します。新しいシーンを生成する際には、これらのキーフレームがRoPE(回転位置埋め込み)技術とともにモデルに入力されます。メモリーフレームに「負のタイムインデックス」を付与することで、システムはAIにそれらを「過去の出来事」として認識させ、ストーリーの進行中にキャラクターや背景の詳細が安定したまま保たれることを確保しています。

注目すべきは、StoryMemの実装方法が非常に効率的であることです。これはアリババがオープンソースで提供しているWan2.2-I2VのLoRaバージョンに基づいており、140億パラメータを持つ基本モデルに約7億パラメータを追加するだけで済み、トレーニングのハードウェア要件を大幅に下げています。300のシーン説明を含むST-Benchベンチマークテストにおいて、StoryMemのシーン間の一貫性は基本モデルに比べて28.7%向上し、芸術的スコアとユーザーの好みにおいてもHoloCineなどの既存の最先端技術を全面的に上回っています。
また、このシステムは非常に実用的であり、ユーザーがカスタム写真を「記憶の起点」としてアップロードし、一貫したストーリーを生成できるようにし、より滑らかなシーン遷移も実現できます。多役割同時処理や大きなアクションのつなぎ目の処理ではまだ限界がありますが、チームはHugging Faceで重みデータを公開し、開発者向けにプロジェクトページを立ち上げました。
アドレス:https://kevin-thu.github.io/StoryMem/
https://huggingface.co/Kevin-thu/StoryMem
