AI動画生成分野のスター企業であるRunwayが「世界モデル」のレースに正式参入した。木曜日、同社は初の汎用的世界モデルGWM-1を発表し、フレームごとのピクセル予測を通じて、物理法則と時間の流れを理解する動的なシミュレーション環境を構築できると宣言した。この取り組みにより、RunwayはグーグルやOpenAIなどの巨大企業と肩を並べ、次世代の身体知能と汎用人工知能のコアインフラストラクチャを競うこととなった。

「世界モデル」とは、AIシステムが現実世界の動作メカニズムを内部でシミュレートすることにより、すべての現実的なシナリオに対して個別に訓練する必要がない状態で、推論、計画、自律的行動が可能になることを指す。Runwayは、この目標への最適な道は、モデルが直接ピクセルを予測することだと考えている。つまり、動画のフレームから物理、照明、ジオメトリ、因果関係を学ぶことだ。会社のCTOであるAnastasis Germanidis氏はライブ配信で、「世界モデルを構築するためには、まず非常に強力な動画モデルを構築しなければならない。十分な規模と高品質なデータのサポートがあれば、モデルは自然と世界の動作方法について深い理解を得ることができる」と述べた。

image.png

GWM-1は単一製品ではなく、3つの専門化されたサブプロジェクトを通じて先行的に導入されている。それは、GWM-Worlds、GWM-Robotics、およびGWM-Avatarsである。その中でも、GWM-Worldsはインタラクティブなアプリケーションであり、ユーザーはテキストの指示や画像によって初期のシーンを設定し、モデルはすぐに24フレーム/秒、720p解像度で動作する動的な世界を生成する。この空間は一貫性のあるジオメトリ構造と照明ロジックを備え、ユーザーが「探索」を行う過程でリアルタイムで新しいコンテンツを生成することができる。Runwayは、この機能がゲーム開発だけでなく、AIエージェントが現実世界でナビゲーションと意思決定を行うための仮想サンドボックスとしても利用可能であると指摘している。

ロボット分野では、GWM-Roboticsは合成データを用いて天候の変化や動的な障害物などの変数を注入し、高リスクまたは再現が難しい現実的なシナリオでのロボットの振る舞いを事前にテストする手助けをしている。さらに重要なのは、このシステムがロボットがどのような条件下でセキュリティポリシーまたは指示を違反する可能性があるかを特定できることであり、信頼性検証のために新たなツールを提供している。Runwayは、このモジュールをSDKを通じて協力企業に開放する計画をしており、いくつかのロボット会社と深く話し合いを行っていると明らかにしている。

一方で、GWM-Avatarsは現実的な人間の行動ロジックを持つデジタル人間を生成し、コミュニケーションやトレーニングなどに使用するものである。この方向性はD-ID、Synthesia、Soul Machines、さらにはグーグルのデジタル人間プロジェクトと一致している。現在の3つのサブモデルは独立したモデルとして存在しているが、Runwayは最終的にはこれらを統合して汎用的世界モデルにすることが明確に示されている。

一方で、Runwayは今月上旬に公開したGen4.5動画生成モデルにも大幅なアップデートを施した。新バージョンでは、ネイティブな音声生成や1分間の複数ショット動画の合成が可能となり、キャラクターの一貫性を保持し、台詞や環境音効果を追加できるようになった。ユーザーは既存の動画の音声を編集したり、任意の長さの複数ショット作品を詳細に調整したりすることもできる。これらの能力により、Runwayの動画ツールは競合他社のKlingが最近公開した「一体化型動画ツールセット」に近づき、AI動画生成技術がクリエイティブなプロトタイプから生産可能な工業用ツールへと進化していることを示している。現在、アップグレードされたGen4.5はすべての有料ユーザーに公開されている。