當大模型不再只是“看圖說話”或“文生圖”,而是能像人類一樣在複雜環境中理解、規劃並執行跨模態操作,多模態AI正迎來質的飛躍。10月30日,北京智源人工智能研究院正式發佈其新一代多模態世界模型——Emu3.5,首次將自迴歸式“下一狀態預測”(Next-State Prediction, NSP)引入多模態序列建模,標誌着AI從“感知理解”邁向“智能操作”的關鍵一步。
NSP架構:讓AI學會“預測世界如何變化”
Emu3.5的核心突破在於其統一的NSP框架:模型將文本、圖像、動作指令等多模態輸入視爲連續狀態序列,通過預測“下一個狀態”來實現端到端的智能推理。這意味着,Emu3.5不僅能理解當前場景,還能預判操作後的結果,並據此規劃最優動作路徑。

例如,用戶輸入“把這張照片中的咖啡杯移到桌子右邊,並調亮整體色調”,Emu3.5不僅能精準識別對象與背景,還能分步執行移動、光照調整等複合操作,確保每一步輸出都符合物理邏輯與視覺一致性。
具身智能初顯:跨場景操作能力全面升級
在實測中,Emu3.5展現出強大的跨模態泛化與具身操作能力:
文圖協同生成:根據複雜描述(如“賽博朋克風格的雨夜街道,霓虹燈反射在積水路面”)生成高細節圖像;
智能圖像編輯:支持語義級修改(如“更換人物服裝風格爲復古西裝”),無需手動選區;
時空動態推理:可對視頻幀序列進行連貫編輯,如“讓奔跑的角色突然停下並轉身”。
這種能力使其在機器人控制、虛擬助手、智能設計等需“感知-決策-執行”閉環的場景中潛力巨大。
多模態融合新範式:打破信息孤島
不同於早期多模態模型僅做特徵對齊,Emu3.5將文本、視覺、動作等模態統一編碼爲可預測的狀態流,實現真正意義上的跨模態自由切換與協同推理。科研人員可藉此高效處理異構數據,普通用戶則能通過自然語言完成以往需專業軟件才能實現的創作任務。
智源表示,Emu3.5將率先應用於教育(智能課件生成)、醫療(多模態病歷分析)、娛樂(AI導演)等領域,並持續開源部分能力,推動多模態生態發展。
結語:從“理解世界”到“操作世界”
Emu3.5的發佈,不僅是技術參數的升級,更是AI角色定位的轉變——從被動響應的“工具”,進化爲主動規劃的“協作者”。當模型開始預測“下一步會發生什麼”,它便真正踏上了通往通用智能的道路。而智源,正以NSP架構爲支點,撬動多模態AI的下一個爆發點。
