近日,有消息稱 OpenAI 即將推出一款名爲 “Operator” 的 AI 工具,該工具具備控制個人電腦並代爲執行任務的能力。軟件工程師 Tibor Blaho 在社交媒體上透露了這一消息,稱他發現了關於這款工具的最新線索。此前,包括《彭博社》在內的多家媒體曾報道過 “Operator” 的傳聞,稱其能夠自主完成如編寫代碼和預定旅行等多項任務。

image.png

據 Blaho 透露,OpenAI 計劃在2025年1月發佈 “Operator”。他發現 OpenAI 的 ChatGPT macOS 客戶端中新增了隱祕選項,可以定義 “切換 Operator” 和 “強制退出 Operator” 的快捷鍵。此外,OpenAI 的網站上也已經出現了 “Operator” 的相關信息,儘管這些信息目前尚未對外公開。

Blaho 還提到,OpenAI 網站上有一些比較 “Operator” 與其他計算機使用 AI 系統性能的表格,這些表格可能只是佔位符。如果表格中的數據準確,那麼顯示 “Operator” 的表現並不總是可靠,具體依賴於執行的任務。

image.png

在 OSWorld 的一項基準測試中,“OpenAI 計算機使用代理(CUA)” 的得分爲38.1%,雖然超越了 Anthropic 的計算機控制模型,但仍遠低於人類的72.4% 得分。在 WebVoyager 的測試中,Operator 的表現超過了人類,而在 WebArena 的測試中則不及人類的表現。對於一些簡單的任務,例如註冊雲服務提供商並啓動虛擬機,Operator 的成功率僅爲60%;而在創建比特幣錢包的任務中,其成功率僅爲10%。

OpenAI 進入 AI 代理市場的時機恰逢其他競爭對手如 Anthropic、谷歌等也在爭相推出類似技術。儘管 AI 代理目前仍處於初級階段,但市場分析公司 Markets and Markets 預計,到2030年,AI 代理市場的價值將達到471億美元。

雖然目前的 AI 代理技術仍然較爲基礎,但一些專家對其潛在的安全隱患表示擔憂。Blaho 透露的數據顯示,Operator 在某些安全評估中表現良好,能夠有效應對試圖讓系統執行 “非法活動” 或搜索 “敏感個人數據” 的測試。安全測試被認爲是 Operator 開發週期較長的原因之一。

OpenAI 的聯合創始人 Wojciech Zaremba 曾在社交媒體上批評 Anthropic 發佈的代理缺乏安全保障,他表示如果 OpenAI 發佈類似產品,可能會引發負面反響。

劃重點:

🔍 OpenAI 即將發佈的 “Operator” 工具能自主控制電腦執行任務,如編寫代碼和預定旅行。

🛠️ 根據泄露信息,Operator 在部分任務上的成功率相對較低,且表現不及人類。

⚠️ 儘管 Operator 在安全評估中表現較好,但專家對其潛在的安全隱患表示關注。