Anthropic最新發佈了Claude Sonnet4.5模型,這款備受期待的AI模型於9月29日正式亮相,被譽爲“世界上最佳編碼模型”,標誌着AI在複雜任務處理和自主代理領域的重大突破。以下是基於最新數據的專業剖析。

image.png

模型發佈與核心亮點

Anthropic宣佈Claude Sonnet4.5現已全球可用,支持Claude.ai網頁、iOS和Android應用,以及API接口。

該模型在編碼基準測試SWE-bench Verified上取得領先成績,實測可維持30小時以上的自主工作時長,遠超前代Claude Opus4的7小時上限。這意味着AI不再侷限於簡單原型生成,而是能處理跨代碼庫的複雜、多步驟任務,實現“生產就緒”級應用開發。

在實際表現上,Claude Sonnet4.5的代碼編輯準確率從前代的9%錯誤率提升至0%,工具使用成功率更高,同時成本更低。它在OSWorld基準(測試真實計算機任務)中得分達61.4%,較四個月前的Sonnet4提升19.2%。此外,該模型在金融、法律、醫學和STEM領域的專業知識與推理能力也顯著增強,超越Opus4.1。

image.png

技術升級與生態集成

此次發佈伴隨多項產品優化,進一步強化Claude生態的實用性。在Claude Code中,新引入“檢查點”功能,用戶可隨時保存進度並回滾狀態,避免開發中斷。

同時,API新增上下文編輯和內存工具,支持代理運行更長時序任務;Claude應用內直接集成代碼執行和文件生成(如表格、幻燈片),簡化工作流。Anthropic還推出Claude Agent SDK,開發者可利用自然語言構建自定義AI代理,管理內存、權限並協調子代理。

該SDK與Claude for Chrome擴展無縫對接,後者已向Max訂閱用戶開放,支持瀏覽器內代理操作。此外,GitHub Copilot、Replit Agent和Amazon Bedrock等平臺已快速集成Sonnet4.5,提升多步驟推理和代碼理解能力。定價方面,Claude Sonnet4.5保持與Sonnet4一致:輸入3美元/百萬tokens,輸出15美元/百萬tokens。這不僅降低了企業部署門檻,還體現了Anthropic在AI經濟中的基礎設施定位。

安全與對齊創新

Anthropic強調,Claude Sonnet4.5是其“最對齊的前沿模型”。通過廣泛的安全訓練,該模型顯著降低“奉承”(sycophancy)、欺騙、權力尋求和鼓勵妄想等風險行爲,並提升對提示注入攻擊的防禦能力。外部專家評估顯示,它在多領域表現出更可靠的道德決策,適用於高風險企業場景。

行業影響與未來展望

Claude Sonnet4.5的發佈正值AI代理浪潮興起之際。它不僅挑戰OpenAI的GPT-5和Google的Gemini2.5Pro在編碼領域的霸主地位,還爲軟件開發、自動化工作流注入新活力。

專家預測,這將加速“AI作爲同事”的範式轉變,推動從原型迭代到自主維護的躍進。Anthropic建議所有用戶立即升級至Sonnet4.5,以解鎖這些潛力。AIbase觀點:在AI競爭白熱化的2025年,Claude Sonnet4.5證明了“專注實用”的價值。它不是簡單的參數堆砌,而是對真實世界需求的精準響應。開發者與企業應密切關注後續生態擴展,這或將成爲代理AI商業化的關鍵節點。