OpenAI正式發佈ChatGPT Agent,這款全新AI工具標誌着人工智能從對話助手向自主任務執行者的重大飛躍。ChatGPT Agent整合了此前OpenAI推出的Operator和Deep Research功能,能夠通過虛擬瀏覽器、終端和API訪問,自主完成複雜任務,爲用戶節省時間並提升效率。

image.png

核心功能:從對話到行動

ChatGPT Agent不再侷限於文本對話,而是能夠像人類一樣在網絡上瀏覽、點擊、填寫表單,甚至執行代碼和調用API。它可以處理多樣化的任務,例如爲婚禮挑選符合預算和風格的服裝、制定旅行行程、生成專業報表或創建幻燈片。OpenAI表示,該代理通過GPT-4o模型驅動,結合了Operator的網頁交互能力和Deep Research的深度研究功能,打造出一個統一的智能系統。用戶只需提供單一指令,Agent即可自主完成多步驟任務,大幅提升生產力。

image.png

性能表現:超越行業標杆

ChatGPT Agent在多項基準測試中展現出領先性能。在“Humanity’s Last Exam”測試中,其準確率達到41.6%,遠超此前OpenAI o3模型的20.3%和Deep Research的26.6%。在投資銀行建模任務中,Agent的平均準確率高達71.3%,在Excel和PowerPoint相關任務中也優於微軟Co pilot等競爭對手。此外,其在BrowseComp和WebArena等網頁導航任務中的表現分別爲68.9%和65.4%,顯示出強大的實用性。

安全與限制:用戶掌控爲核心

OpenAI強調,ChatGPT Agent在設計時注重安全性。在執行涉及密碼或支付等“高後果”操作時,Agent會請求用戶明確授權,並允許用戶隨時暫停、中斷或接管任務。爲防止惡意網站或提示注入攻擊,OpenAI實施了嚴格的防護措施,包括限制敏感操作(如銀行轉賬)和自動刪除瀏覽數據。此外,Agent被歸類爲“高生物與化學”能力級別,觸發了額外的安全保障。

可用性與未來規劃

目前,ChatGPT Agent已向ChatGPT的Pro、Plus和Team用戶開放,Pro用戶可享受每月400次任務配額,而Plus和Team用戶爲40次,超出配額可購買額外任務額度。OpenAI計劃在未來幾周內向企業和教育用戶擴展訪問權限。然而,該功能暫未在歐盟和瑞士推出。OpenAI還透露,Agent可能是通向更強大模型(如傳聞中的GPT-5)的基石,未來可能整合更多功能,如支付結算系統。

image.png

ChatGPT Agent的發佈正值AI行業競爭白熱化之際。微軟的Co pilot、谷歌的Gemini以及xAI的Grok都在爭奪數字生產力接口的主導地位。OpenAI通過Agent的推出,不僅鞏固了其在生成式AI領域的領先地位,還向傳統搜索和辦公軟件發起了挑戰。業內人士認爲,ChatGPT Agent可能重新定義用戶與網絡和生產力工具的交互方式,成爲AI驅動自動化的新標杆。

AIbase認爲ChatGPT Agent的推出是OpenAI從對話AI向全面自動化邁出的關鍵一步。儘管其執行復雜任務可能需要15-30分鐘,但相比人工操作已顯著提效。未來,隨着技術的優化和功能擴展,ChatGPT Agent有望成爲企業和個人用戶的得力助手。然而,其數據隱私和安全問題仍需持續關注。AIbase將持續跟蹤這一產品的後續發展,爲讀者帶來最新洞察。

官方博客:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/