最近、ビットテクノロジーと南洋理工大学が共同で開発したオープンソースフレームワーク「StoryMem」が、AI動画生成分野で広く注目を集めています。このフレームワークは、イノベーションな「視覚的な記憶」メカニズムにより、既存の単一ショットの動画拡散モデルを複数ショットの長編映画風ストーリーに変換し、1分以上の長さ、複数のショット切り替え、キャラクターやシーンの高い一貫性を持つ物語動画を自動生成することが可能です。これは、オープンソースAI動画技術が映画級の物語構成に向かって重要な一歩を踏み出したことを示しています。

StoryMemのコアイノベーション:記憶メカニズム駆動の1枚ずつの生成

StoryMemの中心は、人間の記憶からインスピレーションを得た「Memory-to-Video(M2V)」デザインです。このシステムは、以前に生成されたショットの重要なフレーム情報を保持するコンパクトなダイナミックな記憶データベースを維持します。まず、テキストから動画(T2V)モジュールを使って最初のショットを初期記憶として生成し、その後各新しいショットを生成する際には、M2V LoRAを用いて記憶の重要なフレームを拡散モデルに注入し、キャラクターの外見、シーンのスタイル、物語の論理がショットを超えて高精度で一致することを確保します。

生成が完了すると、フレームワークは自動的に意味のあるキーフレームを抽出し、美学的選別を行い、さらに記憶データベースを更新します。この反復型の生成方式により、従来の長編動画モデルでよくあるキャラクターの「顔の変化」やシーンの飛躍などの問題を回避でき、大量の長編動画データのトレーニングなしに、軽量なLoRA微調整だけで実現可能です。

image.png

優れた一貫性と映画レベルの品質

実験結果によると、StoryMemはショット間の一貫性において現在の他の手法よりも顕著に優れており、向上幅は最大で29%にもなります。また、人間による主観的な評価でもより好まれる結果を示しています。さらに、基本モデル(例えばWan2.2)の高画質、プロンプトの遵守度、ショット制御能力を保持し、自然なトランジションやカスタムストーリーの生成をサポートします。

このフレームワークには、ST-Benchというベンチマークデータセットも付属しており、300個の多様な複数ショットのストーリーポイントを含んでおり、長編動画の物語品質を標準化して評価するためのものです。

応用範囲が広く、迅速なプレビューとA/Bテストの強力なツール

StoryMemは特に、視覚コンテンツを迅速に反復する必要がある分野に適しています:

- マーケティングと広告:スクリプトから迅速にダイナミックなセッションを生成し、さまざまなバージョンのA/Bテストを行う

- 映画予備制作:撮影チームがストーリーボードを視覚化するのを補助し、前期の概念コストを削減する

- スマートフォン動画と独立した創作:連続性のある物語短編を簡単に生成し、コンテンツのプロフェッショナルさを向上させる

コミュニティの迅速な対応:ComfyUIへの統合がすでに始まっている

プロジェクトが公開されてからわずか数日で、コミュニティはすでにローカルでの展開を探索しており、一部の開発者はComfyUIで初期のワークフローを実装し、ローカルで長編動画を生成できるようにしています。これにより、使用のハードルがさらに低下しました。

AIbaseの意見:長編動画の一貫性は、AI生成分野における大きな課題でした。StoryMemは、軽量で効率的な方法によってこの課題を解決し、オープンソース動画モデルが実用的な物語構成ツールへと進化するのを大幅に推進しました。今後、さらに多くのマルチモーダル機能と組み合わせることで、広告、映画、コンテンツ創作分野での潜在力がさらに引き出されるでしょう。

プロジェクトのURL:https://github.com/Kevin-thu/StoryMem