Salesforce與南加州大學的研究人員共同開發了一項名爲 CoAct-1 的突破性技術,旨在通過結合編碼和圖形用戶界面(GUI)操作的優勢,顯著提升AI代理在計算機上執行復雜任務的能力。這一混合方法旨在克服傳統GUI代理的脆弱性,爲更強大、可擴展的自動化鋪平道路。
傳統AI代理的痛點:長任務與誤點擊
現有的計算機AI代理通常依賴視覺語言模型(VLM)來感知屏幕並模擬鼠標鍵盤操作。雖然這類“點擊式”代理能執行各種任務,但在面對辦公生產力套件等具有密集菜單和複雜工作流程的應用時,它們往往表現不佳。研究人員指出,在這些場景中,單一的誤點擊或對UI元素的誤解,都可能導致整個任務失敗。
爲了應對這一挑戰,研究人員曾嘗試利用高級規劃器來增強GUI代理,但這種方法依然無法解決那些通過幾行代碼就能更直接、更可靠地完成的操作。
CoAct-1:一個多智能體協作的混合系統
爲解決這些限制,CoAct-1系統應運而生。其核心理念是“將GUI操作的直觀優勢與通過代碼直接進行系統交互的精確性、可靠性和效率相結合”。該系統由一個由三個專門代理組成的團隊協作完成任務:
編排器(Orchestrator):作爲中央規劃器,它負責將用戶的總體目標分解爲子任務,並分配給最合適的代理。
程序員(Programmer):負責編寫和執行Python或Bash腳本,處理文件管理或數據處理等後端操作。
GUI 操作員(GUI Operator):基於VLM,專門處理需要點擊按鈕或導航界面的前端任務。
這種動態委託機制使得CoAct-1能夠策略性地繞過低效的GUI操作,轉而採用更穩健、更高效的代碼執行,同時保留視覺交互的必要性。整個工作流程是迭代的,每個代理完成子任務後都會向編排器彙報,由其決定下一步行動。
性能飛躍:更快、更高效
研究人員在 OSWorld 基準測試上對CoAct-1進行了測試,該基準包含了369個跨瀏覽器、IDE和辦公應用程序的實際任務。結果顯示,CoAct-1取得了 60.76%的成功率,樹立了新的最高水平。
尤其是在操作系統級任務和多應用程序工作流中,CoAct-1的性能提升最爲顯著。更重要的是,該系統的效率也大幅提高,平均只需 10.15步 即可完成任務,遠少於其他領先的純GUI代理所需的15.22步。研究人員指出,更少的步驟不僅能加快任務完成速度,還能最大限度地減少出錯的機會,從而實現更高效、更可靠的自動化。
從實驗室走向企業:潛在的應用與挑戰
這項技術擁有巨大的企業應用潛力。Salesforce應用AI研究總監 Ran Xu 指出,客戶支持、銷售勘探、自動化簿記和營銷活動管理等領域都是完美的用例。在這些場景中,企業需要處理有API和無API的多種工具,而CoAct-1能夠靈活利用代碼和屏幕,提供全面的自動化解決方案。
然而,將CoAct-1從實驗室推向企業環境也面臨挑戰,包括應對遺留軟件、確保安全性和人工監督的必要性。徐強調,需要通過在沙盒環境中訓練來提高代理的適應性,並建立強大的訪問控制和安全護欄,以防止惡意代碼執行。最終,在可預見的未來,“人在環”(human-in-the-loop) 的模式將是確保代理安全、可靠運行的關鍵。