近日,IBM 研究人員推出了一款名爲 CUGA 的開源 AI 助手,旨在自動化複雜的企業工作流程,並能完成超過一半的任務。CUGA 代表 “可配置通用代理”,該軟件通過多代理編排、API 集成和代碼生成等功能,力求幫助知識工作者更高效地處理日常或複雜的工作。
根據 IBM 研究團隊的描述,CUGA 的設計目標是讓知識工作者能夠安全、可靠地配置和調整該代理,以滿足他們的工作需求。雖然市場上對於 AI 代理的安全性和可靠性存有疑慮,但 IBM 依然看好自動化的前景,並致力於提升工作效率。
CUGA 在 WebArena 和 AppWorld 基準測試中取得了61.7% 的網頁任務完成率和48.2% 的 API 任務完成率。這些得分雖然不算高,但在當前 AI 代理技術中已算是頂尖表現。IBM 並未使用自己的企業專用測試標準 WebAgentBench 來評估 CUGA,這引發了一些關注。
通過對比其他 AI 代理的表現,CUGA 的得分顯示出 AI 技術的進步。例如,其他代理在類似測試中平均完成率僅爲24.4%。IBM 的研究團隊指出,企業工作流程通常涉及多項政策的同時適用,因此 CUGA 需要具備更強的政策合規能力。
CUGA 的結構設計上,首先通過對用戶意圖的分析來理解輸入的任務,然後將任務分解爲多個子任務,並進行動態的重新規劃。這樣,CUGA 能將特定子任務分配給專業代理處理,從而確保結果儘可能符合企業的政策。
該系統還與 Langflow 低代碼平臺兼容,並支持多種開源模型的集成。儘管 CUGA 在實際應用中可能還存在一些小問題,比如偶爾無法正常退出運行循環,但 IBM 強調,用戶在使用 AI 代理軟件時應保持合理的期望。
劃重點:
🌟 CUGA 是一款開源 AI 助手,旨在自動化複雜的企業工作流程。
📊 CUGA 在基準測試中取得61.7% 的任務完成率,顯示出 AI 代理技術的進步。
🔧 CUGA 支持動態任務分解和多種開源模型,有望提高工作效率。
