近日,微軟的研究團隊對 API 代理和 GUI 代理進行了對比研究,發現這兩種代理各有特點,可以根據不同需求進行合理選擇。API 代理通過可編程接口與軟件進行交互,而 GUI 代理則模擬人類的操作方式,通過點擊按鈕和導航菜單來完成任務。例如,若要安排一個活動,API 代理可能只需一次函數調用,而 GUI 代理則需要打開日曆應用,逐步填寫相關信息。
在研究中,微軟團隊評估了這兩種代理在九個類別上的表現。其中一個主要差異在於它們與軟件的交互方式:API 代理利用函數調用,通常表現得更穩定且出錯概率低;而 GUI 代理則依賴於視覺界面內容,雖然效率較低,卻具備更高的靈活性。GUI 代理能夠控制幾乎所有具有可見界面的軟件,即使這些軟件並不提供 API。
研究還指出,API 代理在安全性和維護上具有優勢,因爲可以在功能級別限制訪問權限,並且受益於版本控制。相比之下,GUI 代理則更加脆弱,稍微的視覺變化就可能導致其無法正常工作。然而,GUI 代理的透明度更高,用戶可以清晰地看到每個操作,方便審計。
微軟提出了三種結合 API 代理與 GUI 代理的混合系統策略。第一種是通過 API 封裝隱藏 GUI 操作,例如將生成財務報告的多步驟過程簡化爲一個單一的 GenerateReport () 函數。第二種策略是使用編排工具來協調 API 和 GUI 的步驟,適用於數據庫查詢和信用檢查等工作流。第三種策略是低代碼和無代碼平臺,允許非技術用戶通過拖放界面構建自動化流程。
在選擇合適的代理時,研究團隊提供了明確的指導。API 代理適合性能要求高的任務,特別是在與良好文檔的接口打交道時,而 GUI 代理則適用於缺乏 API 的舊系統以及移動應用等場景。隨着時間的推移,混合系統能夠適應新出現的 API,提供更大的靈活性。
劃重點:
🌟 API 代理通過函數調用實現快速、穩定的任務完成,適合安全要求高的環境。
🔄 GUI 代理靈活性強,能夠應對視覺界面的變化,適合老舊系統和需要視覺確認的任務。
🤝 混合系統結合了兩者的優點,能根據具體需求選擇最優方案,助力自動化進程。