正文

OpenAI重磅發佈ChatGPT Agent：會主動思考，瀏覽、購物、做PPT！

發布於AI新閒資訊

時間 :Jul 18, 2025

閱讀 :1分鐘

OpenAI正式發佈ChatGPT Agent，這款全新AI工具標誌着人工智能從對話助手向自主任務執行者的重大飛躍。ChatGPT Agent整合了此前OpenAI推出的Operator和Deep Research功能，能夠通過虛擬瀏覽器、終端和API訪問，自主完成複雜任務，爲用戶節省時間並提升效率。

核心功能:從對話到行動

ChatGPT Agent不再侷限於文本對話，而是能夠像人類一樣在網絡上瀏覽、點擊、填寫表單，甚至執行代碼和調用API。它可以處理多樣化的任務，例如爲婚禮挑選符合預算和風格的服裝、制定旅行行程、生成專業報表或創建幻燈片。OpenAI表示，該代理通過GPT-4o模型驅動，結合了Operator的網頁交互能力和Deep Research的深度研究功能，打造出一個統一的智能系統。用戶只需提供單一指令，Agent即可自主完成多步驟任務，大幅提升生產力。

性能表現:超越行業標杆

ChatGPT Agent在多項基準測試中展現出領先性能。在“Humanity’s Last Exam”測試中，其準確率達到41.6%，遠超此前OpenAI o3模型的20.3%和Deep Research的26.6%。在投資銀行建模任務中，Agent的平均準確率高達71.3%，在Excel和PowerPoint相關任務中也優於微軟Co pilot等競爭對手。此外，其在BrowseComp和WebArena等網頁導航任務中的表現分別爲68.9%和65.4%，顯示出強大的實用性。

安全與限制:用戶掌控爲核心

OpenAI強調，ChatGPT Agent在設計時注重安全性。在執行涉及密碼或支付等“高後果”操作時，Agent會請求用戶明確授權，並允許用戶隨時暫停、中斷或接管任務。爲防止惡意網站或提示注入攻擊，OpenAI實施了嚴格的防護措施，包括限制敏感操作（如銀行轉賬）和自動刪除瀏覽數據。此外，Agent被歸類爲“高生物與化學”能力級別，觸發了額外的安全保障。

可用性與未來規劃

目前，ChatGPT Agent已向ChatGPT的Pro、Plus和Team用戶開放，Pro用戶可享受每月400次任務配額，而Plus和Team用戶爲40次，超出配額可購買額外任務額度。OpenAI計劃在未來幾周內向企業和教育用戶擴展訪問權限。然而，該功能暫未在歐盟和瑞士推出。OpenAI還透露，Agent可能是通向更強大模型（如傳聞中的GPT-5）的基石，未來可能整合更多功能，如支付結算系統。

ChatGPT Agent的發佈正值AI行業競爭白熱化之際。微軟的Co pilot、谷歌的Gemini以及xAI的Grok都在爭奪數字生產力接口的主導地位。OpenAI通過Agent的推出，不僅鞏固了其在生成式AI領域的領先地位，還向傳統搜索和辦公軟件發起了挑戰。業內人士認爲，ChatGPT Agent可能重新定義用戶與網絡和生產力工具的交互方式，成爲AI驅動自動化的新標杆。

AIbase認爲ChatGPT Agent的推出是OpenAI從對話AI向全面自動化邁出的關鍵一步。儘管其執行復雜任務可能需要15-30分鐘，但相比人工操作已顯著提效。未來，隨着技術的優化和功能擴展，ChatGPT Agent有望成爲企業和個人用戶的得力助手。然而，其數據隱私和安全問題仍需持續關注。AIbase將持續跟蹤這一產品的後續發展，爲讀者帶來最新洞察。

官方博客：https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

首個直播流擴散AI模型MirageLSD震撼發佈，實時視頻轉換開啓無限可能！

全球首款AI實時視頻轉換模型MirageLSD發佈，實現40毫秒超低延遲處理。該模型由Decart AI團隊研發，支持24幀/秒實時轉換任意視頻流，突破傳統視頻生成技術瓶頸。通過手勢控制等簡單交互，用戶可實時改變視頻場景、服裝等元素，大幅降低創作門檻。應用場景涵蓋遊戲開發（30分鐘快速構建遊戲）、直播、動畫製作等領域，其核心技術LSD模型採用Diffusion Forcing技術，解決長時間生成的誤差累積問題。目前該模型已開放試用，將推動AI與內容創作的深度融合。

Jul 18, 2025

173.2k

AI 視頻成本新高?Google Veo3通過 Gemini API 現已上線

谷歌開放Veo3視頻生成API，支持文本轉視頻及同步音頻生成，但成本較高。該模型能通過單提示生成高清視頻，720p含音頻視頻每秒0.75美元，5分鐘需225美元。目前主要應用於專業領域，如遊戲過場動畫和3D角色製作。谷歌還推出更快的"Veo3Fast"模式，但暫未開放API。開發者可通過Gemini API集成該功能，需使用Google Cloud付費套餐。

Jul 18, 2025

155.5k

集體訴訟來襲！Anthropic 因盜版圖書被作家們告上法庭

加州科技公司Anthropic因涉嫌侵犯版權被三位作家集體起訴，指控其通過盜版圖書館下載700萬本作品訓練AI聊天機器人Claude。聯邦法官裁定該案可代表全美受影響作家繼續審理，這是AI行業面臨的又一版權審查。訴訟稱Anthropic通過類似Napster的方式竊取書籍建立數十億美元業務。此前法官曾判定使用合法購書訓練AI屬合理使用，但盜版書籍可能面臨另案審判。類似糾紛頻發，如Reddit也起訴Anthropic機器人違規訪問。案件凸顯創意產業與AI公司緊張關係，關乎技術創新與版權保護的平衡。

Jul 18, 2025

148.0k

月之暗面Kimi開放平臺上線Kimi Playground 支持一站式工具調用

Kimi開放平臺宣佈，正式上線Kimi Playground，這是一個專爲開發者設計的一站式工具調用能力體驗平臺。Kimi Playground的發佈，標誌着AI技術從單純的對話助手向能夠真正“動手做事”的智能助理的重大轉變。 Kimi Playground的核心在於工具調用（Tool Calling）功能，這一功能讓AI能夠主動調用各種工具來完成複雜的任務。例如，當用戶詢問“明天的天氣如何”時，AI不再只是簡單地回覆“我不知道”，而是能夠調用天氣查詢工具，實時獲取並返回準確的天氣信息。這種能力的實現，使得AI從一個被動的信息提供者，變成了一個能夠主動解決問題的智能助手。

Jul 18, 2025

148.0k

字節跳動AI核心人事變動:視覺多模態負責人楊建朝宣佈“暫時休息”

【140字概括】字節跳動視覺AI負責人楊建朝因工作強度及家庭原因暫別崗位，由原阿里M6負責人周暢接任。楊建朝是字節AI核心人物，2018年加入後主導視覺模型研發；繼任者周暢爲復旦北大背景的AI專家，曾打造阿里M6模型。此次人事變動引發對團隊穩定性關注，但字節強調Seed視覺模型團隊（專注圖像/視頻生成）的全球佈局及基礎研究投入不變。核心團隊向谷歌DeepMind前副總裁吳永輝彙報。

Jul 17, 2025

169.5k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

OpenAI重磅發佈ChatGPT Agent：會主動思考，瀏覽、購物、做PPT！

相關推薦

首個直播流擴散AI模型MirageLSD震撼發佈，實時視頻轉換開啓無限可能！

AI 視頻成本新高?Google Veo3通過 Gemini API 現已上線

集體訴訟來襲！Anthropic 因盜版圖書被作家們告上法庭

月之暗面​Kimi開放平臺上線Kimi Playground 支持一站式工具調用

字節跳動AI核心人事變動:視覺多模態負責人楊建朝宣佈“暫時休息”

月之暗面Kimi開放平臺上線Kimi Playground 支持一站式工具調用