12月4日,北京智源人工智能研究院正式發佈新一代多模態大模型Emu3.5,被譽爲“真正理解物理世界的AI”。與以往圖像、視頻、文本模型各自爲戰不同,Emu3.5首次實現“世界級統一建模”,讓AI從“會畫畫、會寫文”進化到真正“懂世界”。

傳統AI的致命短板:不懂物理、不懂因果
過去絕大多數圖像生成模型雖然畫得逼真,卻嚴重缺乏對真實世界規律的理解:物體不會無緣無故飛起來,重力、碰撞、運動軌跡對它們來說完全是“黑箱”。即使是頂級視頻生成模型,也常常出現動作突變、邏輯斷裂的現象,根本原因是:它們學的只是“表面的像素”,而不是“世界的運行規則”。
Emu3.5的核心突破:預測“世界下一秒”
Emu3.5徹底顛覆了這一局面。研究團隊將圖像、文本、視頻全部統一編碼爲同一種Token序列,模型只學習一個最純粹的任務——NSP(Next State Prediction,預測下一個世界狀態)。
簡單來說:
- 無論輸入是圖片、文字還是視頻幀,在Emu3.5眼裏都是“世界當前狀態”的不同表達方式;
- 模型的任務永遠只有一個:預測“世界下一秒會變成什麼樣”;
- 下一秒可能是文字→自動續寫對白;
- 下一秒可能是畫面→自動生成合理動作;
- 下一秒可能同時包含視覺+語言變化→推演完整的世界演化。
統一Token化:圖像、文字、視頻徹底打通
Emu3.5最大技術亮點在於將所有模態統一成了同一套“世界積木”。模型不再區分“這是一張圖”還是“一句話”還是“視頻的一幀”,所有信息都被離散化爲Token序列。通過海量數據訓練,模型學會了跨模態的因果關係和物理常識,真正具備了“世界級理解力”。
從“像素搬運工”到“世界模擬器”
業內專家評價:Emu3.5是多模態大模型從“生成時代”邁向“世界模型時代”的里程碑。未來基於Emu3.5,不僅能生成更自然的長視頻、交互式圖像編輯,還可能直接用於機器人具身智能、自動駕駛仿真、物理世界預測等高階場景。
AIbase獨家點評
當所有大廠還在卷參數、卷分辨率、卷視頻時長時,北京智源直接把問題本質拉回到“AI到底有沒有理解世界”。Emu3.5用最簡潔的“預測下一個Token”統一了所有模態,卻實現了最深刻的能力躍遷:從畫得像,到變得對。這一次,中國團隊再次用原創範式引領了全球AI新方向。
真正的世界模型,已然到來。
你準備好迎接“可預測的下一秒”了嗎?
官網地址:https://zh.emu.world/pages/web/landingPage
體驗地址:https://zh.emu.world/pages/web/login
