字節跳動豆包大模型團隊宣佈開源 UI-TARS-1.5,這是一款基於視覺 - 語言模型構建的開源多模態智能體,能夠在虛擬世界中高效執行各類任務。該模型在7個典型的 GUI 圖形用戶界面評測基準中取得了 SOTA(State-of-the-Art)表現,並首次展現了其在遊戲中的長時推理能力和在開放空間中的交互能力。這一開源項目標誌着多模態智能體技術在 GUI 操作和遊戲推理領域取得了重要進展。

UI-TARS-1.5基於字節跳動此前提出的原生智能體方案 UI-TARS,通過強化學習進一步增強了模型的高階推理能力,使模型能夠在“行動”前先進行“思考”。這種“思考 - 再行動”機制顯著提升了模型在面對未知環境和任務時的泛化能力,使得 UI-TARS-1.5在多項主流評測基準上較此前領域最優模型取得了更好表現。例如,在 GUI Grounding 能力評估中,UI-TARS-1.5在高難度的 ScreenSpotPro 上的準確率達到61.6%,超過 Claude 的27.7%、CUA 的23.4% 以及此前領域最優模型的43.6%。

微信截圖_20250418080056.png

在遊戲任務中,UI-TARS-1.5也展現了出色的表現。團隊選取了 poki.com 上14款風格各異的小遊戲進行測試,模型每局最多允許1000步交互。UI-TARS-1.5在這些遊戲任務中不僅展現了較好的表現,還呈現出穩定的推斷時擴展性。此外,團隊進一步在開放環境 Minecraft(《我的世界》遊戲)中評估了 UI-TARS-1.5的能力。在 MineRL 標準評測任務中,UI-TARS-1.5在“尋找並破壞特定方塊”和“搜索並擊敗敵對生物”兩個任務中均取得了最高成功率,特別是在啓用“思考模塊”後表現更加突出,驗證了“思考 - 再行動”機制的有效性。

UI-TARS-1.5的成功源於團隊在四個維度的技術探索:視覺感知增強、System2推理機制、統一動作建模以及可自我演化的訓練範式。通過這些技術,UI-TARS-1.5能夠實現精準的 GUI 操作,並在複雜任務中表現出色。例如,用戶想讓模型“把字體調大”,通用模型往往理解模糊、操作失誤,而 UI-TARS 能迅速定位“設置”入口,並基於既有知識推理出正確路徑,精準完成操作。

UI-TARS 團隊認爲,智能體的演進正從框架(framework)向模型(model)轉變。UI-TARS 屬於“原生智能體模型(Agent Model)”,具備完整的感知 - 推理 - 記憶 - 行動一體化結構,能在訓練中不斷積累知識與經驗,具備更強的泛化能力與適應能力。這種“從數據出發”的閉環範式,使得 UI-TARS 不再依賴人工規則與提示工程,也無需重複設定交互步驟,極大降低了開發門檻。

未來,UI-TARS 團隊將繼續通過強化學習提升 UI-TARS 在複雜任務中的性能表現,期望達到接近人類的水平,同時將繼續優化 UI-TARS 的產品體驗,進一步提升使用流暢度並豐富交互能力。UI-TARS-1.5的開源,爲開發者和研究人員提供了一個強大的工具,推動多模態智能體技術的發展。開源地址如下:

- GitHub:https://github.com/bytedance/UI-TARS

- Website:https://seed-tars.com/

- Arxiv:https://arxiv.org/abs/2501.12326