近日,微軟宣佈重磅升級其開源項目 AgentUFO,推出了全新的 UFO² 版本,該版本新增了操作系統功能,並與 Windows 系統實現了深度集成。此舉不僅增強了自動化任務的執行效率,還使得用戶能夠更便捷地進行復雜操作。

UFO² 的一個顯著特點是其能夠直接調用 Windows 的原生 API 和 COM 接口。這種方式相比傳統的機器人流程自動化(RPA),能夠在執行復雜業務時更加高效且精準。例如,在 Excel 中將表格數據轉換爲圖表,傳統 RPA 需要模擬多次點擊鼠標,而 UFO² 則可以通過一次 API 調用輕鬆完成,避免了視覺定位和鼠標模擬的繁瑣。
通過測試數據顯示,UFO² 在自動化任務的成功率方面,顯著高於 OpenAI 的 Operator。在不同的測試場景中,UFO² 的成功率分別達到了30.5% 和32.7%,而 Operator 的成功率僅爲20.8% 和14.3%。此外,UFO² 在處理複雜任務和跨應用操作的表現上也明顯優於 Operator,其在非標準界面的適應性更強。

UFO² 的核心控制組件 HostAgent 負責解析用戶指令、管理應用程序生命週期和協調 AppAgents 的執行。當用戶通過自然語言發出自動化指令時,HostAgent 會將任務分解爲一系列子任務,並將其分配給相應的 AppAgents 執行。
每個 AppAgent 專注於特定的 Windows 應用程序,能夠以更高的效率執行任務。UFO² 還引入了混合控制檢測機制,結合視覺輸入與應用程序的元數據,提升了系統對 GUI 元素的感知能力。這一創新使得 AppAgent 能夠在標準和非標準環境中都能穩定工作。
另一個值得注意的創新是 UFO² 的畫中畫模式。這一功能實現了自動化任務與用戶主桌面的隔離,用戶可以在主桌面上正常操作,而自動化任務則在獨立的虛擬桌面中運行。這種設計提升了用戶體驗,降低了系統干擾和潛在安全風險。
UFO² 的這些新功能展現了微軟在自動化領域的最新技術進步,爲用戶提供了更加高效、靈活的工作環境。
開源地址:https://github.com/microsoft/UFO?tab=readme-ov-file
劃重點:
1. 🚀 UFO² 與 Windows 系統深度集成,能直接調用原生 API,提升自動化效率。
2. 📊 UFO² 的自動化任務成功率顯著高於 OpenAI 的 Operator,表現出色。
3. 🖥️ 新增的畫中畫模式實現自動化任務與用戶操作的隔離,提升用戶體驗。
