Salesforce與南加州大學推出CoAct-1:用代碼+GUI混合方法，將AI代理自動化推向新高度

Salesforce與南加州大學的研究人員共同開發了一項名爲 CoAct-1 的突破性技術，旨在通過結合編碼和圖形用戶界面（GUI）操作的優勢，顯著提升AI代理在計算機上執行復雜任務的能力。這一混合方法旨在克服傳統GUI代理的脆弱性，爲更強大、可擴展的自動化鋪平道路。

AI音樂人工智能 (3)

傳統AI代理的痛點:長任務與誤點擊

現有的計算機AI代理通常依賴視覺語言模型（VLM）來感知屏幕並模擬鼠標鍵盤操作。雖然這類“點擊式”代理能執行各種任務，但在面對辦公生產力套件等具有密集菜單和複雜工作流程的應用時，它們往往表現不佳。研究人員指出，在這些場景中，單一的誤點擊或對UI元素的誤解，都可能導致整個任務失敗。

爲了應對這一挑戰，研究人員曾嘗試利用高級規劃器來增強GUI代理，但這種方法依然無法解決那些通過幾行代碼就能更直接、更可靠地完成的操作。

CoAct-1:一個多智能體協作的混合系統

爲解決這些限制，CoAct-1系統應運而生。其核心理念是“將GUI操作的直觀優勢與通過代碼直接進行系統交互的精確性、可靠性和效率相結合”。該系統由一個由三個專門代理組成的團隊協作完成任務:

編排器（Orchestrator）:作爲中央規劃器，它負責將用戶的總體目標分解爲子任務，並分配給最合適的代理。
程序員（Programmer）:負責編寫和執行Python或Bash腳本，處理文件管理或數據處理等後端操作。
GUI 操作員（GUI Operator）:基於VLM，專門處理需要點擊按鈕或導航界面的前端任務。

這種動態委託機制使得CoAct-1能夠策略性地繞過低效的GUI操作，轉而採用更穩健、更高效的代碼執行，同時保留視覺交互的必要性。整個工作流程是迭代的，每個代理完成子任務後都會向編排器彙報，由其決定下一步行動。

性能飛躍:更快、更高效

研究人員在 OSWorld 基準測試上對CoAct-1進行了測試，該基準包含了369個跨瀏覽器、IDE和辦公應用程序的實際任務。結果顯示，CoAct-1取得了 60.76%的成功率，樹立了新的最高水平。

尤其是在操作系統級任務和多應用程序工作流中，CoAct-1的性能提升最爲顯著。更重要的是，該系統的效率也大幅提高，平均只需 10.15步 即可完成任務，遠少於其他領先的純GUI代理所需的15.22步。研究人員指出，更少的步驟不僅能加快任務完成速度，還能最大限度地減少出錯的機會，從而實現更高效、更可靠的自動化。

從實驗室走向企業:潛在的應用與挑戰

這項技術擁有巨大的企業應用潛力。Salesforce應用AI研究總監 Ran Xu 指出，客戶支持、銷售勘探、自動化簿記和營銷活動管理等領域都是完美的用例。在這些場景中，企業需要處理有API和無API的多種工具，而CoAct-1能夠靈活利用代碼和屏幕，提供全面的自動化解決方案。

然而，將CoAct-1從實驗室推向企業環境也面臨挑戰，包括應對遺留軟件、確保安全性和人工監督的必要性。徐強調，需要通過在沙盒環境中訓練來提高代理的適應性，並建立強大的訪問控制和安全護欄，以防止惡意代碼執行。最終，在可預見的未來，“人在環”（human-in-the-loop） 的模式將是確保代理安全、可靠運行的關鍵。

Salesforce與南加州大學推出CoAct-1:用代碼+GUI混合方法，將AI代理自動化推向新高度

相關推薦

AI“自動運維工程師”Resolve AI獲Lightspeed領投A輪融資

谷歌推出A2UI開放標準:讓AI代理秒變"界面設計師"，告別枯燥文字對話

被無數人看衰的Manus，8個月狂飆1億美元ARR！創全球最快紀錄，AI代理時代徹底引爆

微軟推進 Windows AI 代理計劃，風險與創新並存

1億美元A輪融資！以色列AI代理新銳Wonderful殺出重圍，80%問題解決率引爆全球客服市場

Salesforce與南加州大學推出CoAct-1:用代碼+GUI混合方法，將AI代理自動化推向新高度

相關推薦

AI“自動運維工程師”Resolve AI獲Lightspeed領投A輪融資

谷歌推出A2UI開放標準:讓AI代理秒變"界面設計師"，告別枯燥文字對話

被無數人看衰的Manus，8個月狂飆1億美元ARR！創全球最快紀錄，AI代理時代徹底引爆

​微軟推進 Windows AI 代理計劃，風險與創新並存

1億美元A輪融資！以色列AI代理新銳Wonderful殺出重圍，80%問題解決率引爆全球客服市場

微軟推進 Windows AI 代理計劃，風險與創新並存