大規模モデルが単に「画像を見て話す」や「文章から画像を生成する」だけでなく、複雑な環境の中で人間のように理解し、計画し、マルチモーダルな操作を行うことができるようになると、マルチモーダルAIは質的な飛躍を迎えています。10月30日、北京智源人工知能研究院はその新世代のマルチモーダル世界モデルであるEmu3.5を正式に発表しました。これは、自己回帰型の「次の状態予測(Next-State Prediction、NSP)」をマルチモーダルシーケンスモデリングに初めて導入したもので、AIが「感知・理解」から「知的行動」への重要な一歩を踏み出したことを示しています。

NSPアーキテクチャ:AIが「世界がどのように変化するか」を予測する

Emu3.5の核心的な進展は、統一されたNSPフレームワークです。このモデルでは、テキスト、画像、動作指示などのマルチモーダル入力を連続した状態シーケンスとして扱い、「次の状態」を予測することで、エンドツーエンドの知的推論を実現しています。これにより、Emu3.5は現在の状況を理解するだけでなく、操作後の結果を予測し、最適なアクションパスを計画することができます。

人工知能の脳 大規模モデル (2)

例えば、ユーザーが「この写真のコーヒーのカップをテーブルの右側に移動し、全体の明るさを調整してください」と入力すると、Emu3.5はオブジェクトと背景を正確に認識し、移動や明るさ調整などの複合操作を段階的に実行できます。各ステップの出力が物理的論理と視覚的一貫性に合致していることを保証します。

身体性知能の萌芽:シーンを超えた操作能力が大幅に向上

実験では、Emu3.5は強力なマルチモーダル汎化性と身体性操作能力を示しています:

文と画像の協調生成:例えば「サイバーパンク風の雨の夜の通り、ネオンサインが水たまりに反射する」といった複雑な記述に基づき高解像度の画像を生成します。

知的画像編集:例えば「人物の服のスタイルをレトロスーツに変更する」など、セマンティックレベルでの修正をサポートし、手動での選択領域が必要ありません。

時空間の動的推論:ビデオフレームシーケンスに対して一貫した編集が可能で、例えば「走っているキャラクターが突然止まり、向きを変える」ように編集できます。

このような能力により、ロボット制御、仮想アシスタント、スマートデザインなど、「感知-意思決定-実行」の閉ループが必要なシナリオにおいて大きな可能性を持っています。

マルチモーダル統合の新しい枠組み:情報孤島を打ち破る

早期のマルチモーダルモデルが特徴対応を行っていたのとは異なり、Emu3.5はテキスト、視覚、動作などのモードを統一して予測可能な状態フローとしてエンコードし、本格的なマルチモーダルの自由切替と協調推論を実現しています。研究者たちはこれをもとに異種データを効率的に処理でき、一般ユーザーは自然言語を通じて以前は専門ソフトウェアが必要だった創作タスクを完了できるようになります。

智源によると、Emu3.5は教育(スマート教材生成)、医療(マルチモーダル病歴分析)、エンターテイメント(AI演出家)などの分野に最初に応用され、一部の機能は継続的にオープンソース化される予定で、マルチモーダル生態系の発展を促進するとしています。

結論:「世界を理解する」から「世界を操作する」へ