谷歌 DeepMind 最近發佈了 SIMA2,旨在測試通用智能體在複雜3D 遊戲世界中的表現。SIMA2(可擴展可指令多世界智能體)在原有基礎上進行升級,採用了 Gemini 模型,能夠更好地理解目標、解釋計劃並通過自我學習在不同環境中不斷進步。

image.png

SIMA2的前身 SIMA1於2024年問世,當時它通過渲染圖像和虛擬鍵盤鼠標進行控制,學習了600多項語言指令,任務完成率約爲31%,而人類玩家的完成率則高達71%。而 SIMA2在保留相同的界面基礎上,使用 Gemini2.5Flash Lite 作爲核心推理引擎。這使得 SIMA2不僅僅是指令執行者,更成爲了與玩家互動的遊戲夥伴。

image.png

SIMA2的架構將 Gemini 整合爲核心部分,通過接收視覺觀察和用戶指令,推導出高層目標併產生相應的操作。這種新的訓練模式使得智能體能夠解釋自己的意圖,回答有關當前目標的問題,並展示其對環境的推理過程。在 DeepMind 的評估中,SIMA2的任務完成率提升至62%,幾乎達到了人類玩家的水平。

SIMA2還擴展了指令渠道,不僅能夠理解文本指令,還能處理語音、圖形甚至表情符號。在一項演示中,用戶要求 SIMA2找到 “像熟透的番茄一樣顏色的房子”,它能夠推理出 “熟透的番茄是紅色的”,並順利找到目標。

自我改進也是 SIMA2的一大亮點。在初期階段使用人類的遊戲演示後,智能體進入新遊戲,完全依靠自己的經驗進行學習。Gemini 模型爲智能體生成新任務並評分,這使得後續版本在許多之前失敗的任務上也能成功,而無需額外的人類演示。

最後,DeepMind 結合 SIMA2與 Genie3,通過單一圖像或文本提示生成互動3D 環境,展示了智能體在全新環境中如何識別物體並完成指定任務。這標誌着一個通用智能體向更高級的現實世界機器人發展的重要一步。

官方博客:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

劃重點:  

🌟 SIMA2整合了 Gemini2.5Flash Lite 模型,使智能體具備更高的推理和計劃能力。  

📈 SIMA2的任務完成率提升至62%,接近人類玩家的水平,展示出顯著的性能改進。  

🛠️ 通過自我改進機制和 Genie3環境生成,SIMA2展現了在全新場景中的適應能力和通用性。