12月4日、北京智源人工知能研究院は新世代のマルチモーダル大規模モデル「Emu3.5」を正式に発表しました。このモデルは「実世界を真正に理解するAI」として称されています。これまで画像、動画、テキストモデルがそれぞれ独立して機能していたのとは異なり、Emu3.5は初めて「世界レベルの統一モデリング」を実現し、AIが「絵が描ける」「文章が書ける」段階から、「世界を理解する」段階へと進化させました。

図の説明:画像はAIによって生成され、画像のライセンス提供元はMidjourneyです。
従来のAIの致命的な欠点:物理的理解なし、因果関係なし
これまでの多くの画像生成モデルは、見た目はリアルでも、現実世界の法則を十分に理解していませんでした。物体が理由もなく飛んでいくことはなく、重力や衝突、運動の軌跡などは完全に「ブラックボックス」です。最高レベルの動画生成モデルでも、動作の急変や論理の断絶が頻繁に起こります。その根本的な原因は、それらが「表面的なピクセル」を学んでいるだけで、「世界の仕組み」を学んでいないということです。
Emu3.5の核心的突破:「世界の次の瞬間」を予測する
Emu3.5はこの状況を完全に変えました。研究チームは画像、テキスト、動画をすべて同じ種類のTokenシーケンスに統合し、モデルはただ一つの純粋なタスク—NSP(Next State Prediction、次の世界状態を予測)だけを学習します。
簡単に言うと:
- どんな入力であっても、画像、文章、または動画のフレームであっても、Emu3.5にとっては「現在の世界状態」の異なる表現です;
- モデルのタスクは常に一つ:「世界が次の瞬間にどうなるか」を予測すること;
- 次の瞬間は文章→自動的に続きを書く;
- 次の瞬間は画面→合理的な動きを自動生成する;
- 次の瞬間には視覚と言語の両方が含まれる→世界全体の進化を推論する。
統一されたToken化:画像、文章、動画を完全に統合
Emu3.5の最大の技術的特徴は、すべてのモダリティを同一の「世界のブロック」に統合したことです。モデルは「これは一枚の画像」なのか「一文」なのか、「動画の一コマ」なのかを区別しなくなりました。すべての情報が離散化されたTokenシーケンスとして扱われます。膨大なデータで訓練されることにより、モデルは跨モダリティの因果関係や物理的常識を学び、本当に「世界レベルの理解力」を持つようになりました。
「ピクセルの運搬者」から「世界のシミュレータ」へ
業界の専門家はこう評価しています。「Emu3.5は、マルチモーダルの大規模モデルが『生成の時代』から『世界モデルの時代』へと移行するためのマイルストーンです。今後、Emu3.5に基づいて、より自然な長時間の動画やインタラクティブな画像編集が可能になるだけでなく、ロボットの身体的知能、自動運転のシミュレーション、物理的世界の予測などの高度な用途にも応用できるようになります。
AIbase独自のコメント
他の大手企業がパラメータ数や解像度、動画の長さに注力している中、北京智源は問題の本質に焦点を当てました。「AIが世界を理解しているのか?」という問いに立ち返ったのです。Emu3.5は最も単純な「次のトークンを予測する」方法ですべてのモダリティを統一し、最も深い能力の飛躍を実現しました。「描き物が似ている」から「正しいこと」へと進化したのです。このように、中国のチームはまたしても独自の枠組みで、世界のAIの新しい方向性をリードしました。
本当の世界モデル、今や到来しました。
あなたは「予測可能な次の瞬間」に備えていますか?
