今日,人工智能公司Anthropic正式發佈其旗艦模型Claude Opus4的升級版——Claude Opus4.1。此次更新旨在全面提升模型的agentic任務、真實世界編程和推理能力,尤其是在編程和數據分析方面的表現引人注目。

QQ20250806-084859.png

根據官方信息,Claude Opus4.1的最大亮點在於其驚人的編程性能提升。在SWE-bench Verified編程評測中,其表現高達74.5%,這一成績顯示了其在處理複雜代碼問題上的強大實力。GitHub的反饋也印證了這一點,開發者們普遍認爲Opus4.1在多文件代碼重構等任務上表現優於其前身。此外,日本電商巨頭Rakuten Group也指出,新模型能夠更精準地定位大型代碼庫中的錯誤,有效減少不必要的更改和潛在bug。

QQ20250806-084917.png

除了編程能力的飛躍,Opus4.1在深入研究和數據分析方面也有顯著進步,特別是在細節追蹤和agentic搜索能力上有所加強。Windsurf的基準測試結果顯示,Opus4.1的表現比Opus4提升了一個標準差,這一進步幅度堪比Sonnet3.7到Sonnet4的跨越。

儘管此次升級帶來了顯著的性能提升,但Anthropic強調,Opus4.1屬於漸進式改進,並非一次革命性的更新。它將繼續按照**AI安全等級3(ASL-3)**標準部署,並在多項安全評估中表現出穩健性。新模型在拒絕違規請求方面的表現略有提升,無害響應率達到了98.76%。

QQ20250806-084926.png

此外,在兒童安全、政治偏見以及代理性能力測試中,Opus4.1的風險水平與前一版本保持一致,並且在極端濫用場景的配合度上降低了約25%,顯示出更強的安全性。

Claude Opus4.1現已面向所有付費用戶、Claude Code、API、Amazon Bedrock和Google Cloud Vertex AI開放,價格維持與Opus4相同。