自從 Anthropic 於十月推出 Claude 的 “計算機使用” 功能後,AI 智能體的能力引起了廣泛關注。這一功能使得 Claude 成爲首個能夠通過與人類相同的圖形用戶界面 (GUI) 進行交互的前沿模型。
Claude 通過訪問桌面屏幕截圖,並通過鍵盤和鼠標操作來完成任務,這爲用戶提供了一種無需 API 接口就能自動化操作的便利方式。
在一項由新加坡國立大學 Show Lab 進行的研究中,研究人員對 Claude 進行了多項任務的測試,包括網絡搜索、工作流程完成、辦公室生產力和視頻遊戲等。這些任務考察了 Claude 在不同場景下的能力,比如在網頁上搜索併購買商品,或將信息從網站提取並插入到電子表格中。通過這些測試,研究人員從規劃、行動和評估三個維度評估了 Claude 的表現。
在執行復雜任務方面,Claude 的表現令人印象深刻。它能夠制定出清晰的計劃,按步驟執行,並在每一步評估自己的進展。此外,它還能夠在多個應用之間進行協調,例如將信息網頁複製到電子表格中。在某些情況下,Claude 甚至能在任務結束時回顧結果,以確保所有內容與目標一致。
然而,Claude 也會出現一些簡單的失誤,這些錯誤是普通用戶容易避免的。例如,在一個任務中,它未能完成訂閱,因爲沒有向下滾動網頁找到相應的按鈕。
還有一些情況下,它在執行顯而易見的任務時,比如選擇和替換文本或將項目符號更改爲數字,表現得十分笨拙。此外,Claude 有時並沒有意識到自己的錯誤,或對未能達成目標的原因做出錯誤假設。
研究人員指出,Claude 在自我評估機制方面的不足可能是導致這些失誤的原因,未來可能需要改進 GUI 代理框架,以便增加更嚴格的自我評估模塊。研究結果還顯示,現有的 GUI 代理並不能完全復刻人類使用計算機時的基本細微差別。
對於企業而言,使用簡單文本描述自動化任務的潛力十分誘人,但目前這一技術尚未達到大規模應用的成熟度。模型的行爲不穩定,可能導致在敏感應用中的不可預知後果。同時,通過人類設計的界面來執行操作,也並不是完成任務的最快方法。
在廣泛部署之前,企業還需關注將大型語言模型 (LLM) 授權鼠標和鍵盤所帶來的安全風險。例如,有研究顯示,網絡代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此,像 Claude 這樣的工具仍可以幫助產品團隊探索創意,迭代解決方案,從而在開發新功能或服務之前節省時間和成本。
劃重點:
1. 🤖 Claude 具備通過圖形用戶界面進行復雜任務自動化的能力,表現出色。
2. ⚠️ Claude 在執行簡單任務時會出現失誤,反映出其自我評估機制的不足。
3. 💼 現階段,該技術尚不適合大規模應用,企業需謹慎對待潛在的安全風險