最近,人工智能界傳來重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。這次發佈並沒有華麗的口號或冗長的論文,關鍵詞只有一個 ——“幹活”。根據 Anthropic 的說法,Claude Opus4被譽爲全球最強的編程模型,能夠穩定處理複雜且長期的任務,表現出色。而 Claude Sonnet4則在編程和推理能力上進行了強化,可以更加精準地迴應用戶的指令。

Claude4系列帶來了多項令人期待的新功能。首先,模型能夠在進行深入思考時使用輔助工具,從而優化推理過程和回覆質量。其次,兩款模型可以並行使用這些工具,並在開發者授權下提升記憶能力,保留關鍵信息並保持上下文的連貫性。此外,Claude Code 的發佈也讓這一系列模型在 GitHub Actions、VS Code 和 JetBrains 等平臺上更加實用。

image.png

在編程基準測試 SWE-bench 上,Opus4以72.5% 的高分位列前茅,而在 Terminal-bench 上也以43.2% 領先其他競品,展現了其卓越的編程能力。Opus4甚至能像經驗豐富的程序員那樣拆解問題,精準調試並執行復雜的任務,甚至在 Replit 的測試中表現出色,成功處理多文件和大改動的項目。

與 Opus4相比,Sonnet4雖然不一定是最強,但它在大多數開發者中可能更具吸引力。與前代相比,其編程能力、邏輯推理和響應可控性都有明顯提升,幾乎與 Opus4持平,達到了72.7% 的成績。在處理複雜指令時,Sonnet4的表現更加清晰,代碼結構也更爲優雅,因此被選爲新一代 GitHub C opilot 的底座模型。

image.png

隨着 AI 技術的發展,Anthropic 也在模型的行爲和推理方面做出了優化。Claude4系列能夠有效執行復雜的推理任務,並大幅減少在邏輯漏洞測試中的問題發生率。同時,新引入的 “思維總結” 功能,在模型思考路徑過長時,會自動進行信息的壓縮與歸納,使最終信息更加簡潔清晰。

隨着 Claude Code 的正式開放,開發者們將能更輕鬆地在自己的工作流中使用這一強大的 AI 助手。不論是在命令行終端還是在常用的 IDE 中,Claude Code 都能嵌入真實開發場景,提供代碼修改建議,使開發過程更加高效。