人工智能公司 Anthropic 正式發佈其最新旗艦模型 Claude Opus4.5。根據公司官方介紹,該模型在編碼(coding)、agent(智能代理)操作及電腦使用等關鍵生產力場景中,已達當前世界領先水平,同時在研究、演示文稿、電子表格等常見任務上也有顯著提升。

核心能力:編碼、推理與長期任務管理
軟件工程能力顯著提升
在真實世界的軟件工程測試中,Opus4.5達到了極高的性能標準。Anthropic 表示它在複雜、多系統的 Bug 修復任務中,能自己推理出修復方案,無需過度引導。在 Terminal Bench 測試中,該模型比前代 Sonnet4.5多出約15% 的表現。 開發者反饋指出,Opus4.5在代碼遷移、重構方面尤其擅長,並且推理路徑更加複雜但高效。
長期工作與自動化 Agent
Opus4.5支持較長上下文(context)窗口,據官方頁面爲 200K tokens。 (Anthropic)
Anthropic 在開發平臺中新增了 “effort 參數”,允許開發者調整模型的計算強度:可以爲了速度和成本節省降低 “思考”強度,也可以提升質量以追求最優輸出。
它在多智能體(multi-agent)任務中表現尤爲出色。Anthropic 的評估顯示,該模型在複雜 agent 系統裏協調子 agent 的能力提升,從而顯著提高任務完成質量與效率。

常規辦公室與生產力工具能力增強
在 Claude 應用端,長對話不再容易觸達上下文極限:模型會自動總結早期內容,以維持對話連續性。 Chrome 擴展首次全面開放給 Max 用戶;此前僅爲試用狀態。Excel 集成功能也有更新:Opus4.5在內部評估中,在複雜財務建模和自動化任務上的準確率提升約20%,效率提升約15%。
在 Claude Code 桌面版中,用戶可並行運行多個會話(例如分別用於調試、文檔編寫、測試等 Agent 任務),並且 Plan Mode(規劃模式)進一步增強:模型會在正式執行之前提出一個可編輯的計劃文件(如 plan.md),並向用戶澄清問題。 (Anthropic)
性能與效率改善:更強、更省、更靈活
Opus4.5在多項內部基準測試中表現優異,涵蓋編碼 (SWE-bench)、agent 能力 (τ²-bench)、推理、數學和視覺等多個維度。 在效率方面,新模型顯著減少 token 使用。例如,在某些設置下,通過調節 effort 參數,Opus4.5可以在保持或超過 Sonnet4.5性能的同時,輸出 token 數減少達 76%。
此外,通過上下文壓縮 (context compaction) 和 memory 管理提升,它能更穩健地長期運行,適合大型、持續性的 agent 工作流。

安全性:對齊與魯棒性雙重加強
Anthropic 表示,Opus4.5是迄今爲止 對齊性 (alignment) 最強、最穩健的前沿模型之一。 在抵抗惡意提示注入 (prompt injection) 攻擊方面,Opus4.5的防禦能力優於此前版本。Anthropic 稱其比行業內其他前沿模型更難被誤導。安全評估覆蓋範圍廣泛,包括主動和被動的風險路徑。完整的評估結果與方法被記錄在 Opus4.5的 “system card” 中。

定價、可用性與開放平臺
價格:通過 Claude API 調用 Opus4.5的費用爲 每百萬輸入 tokens5美元,每百萬輸出 tokens25美元。
可用性:該模型已在 Anthropic 自家的應用中上線,並且通過 API 對開發者開放。同時,它可在 三大雲平臺 (Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry) 使用。
使用限制變更:對於擁有 Opus 訪問權限的用戶 (如 Max、Team Premium 等),Anthropic 已經移除以前對 Opus 模型的使用 “封頂 (cap)” 限制,並提升了總體使用額度,以便更廣泛地應用於日常工作。
影響
工程師與開發者:Opus4.5在編碼、調試、重構、大型多 agent 協作方面表現出色,可能顯著提高軟件開發效率,降低人工反覆干預。
企業與辦公自動化:藉助 Excel、Chrome 等工具集成,企業可以更輕鬆地將 AI 嵌入日常辦公流程,加速分析與自動化。
AI 代理 (Agent) 生態:更強的長期推理能力與 memory 管理,有望推動複雜、長週期 agent 的落地 (如流程自動化、客戶服務、研發助理等)。
安全可信:Anthropic 強調對齊 (alignment) 和對抗攻擊 (robustness) 的提升,有助於在高責任場景 (如企業、關鍵任務) 中增強信任。
Claude Opus4.5是 Anthropic 在 AI 能力與安全性方面的重大進展。它不僅在編碼和智能代理任務上展現了領先能力,而且通過更高的效率、更靈活的資源使用方式,以及更穩健的對齊機制,爲開發者和企業用戶提供了更強大的生產力工具。隨着其在雲平臺上的廣泛可用性,Opus4.5有望成爲推動下一代 AI 驅動工作流的中堅力量。
