人工智能領域的代碼可靠性迎來重大技術突破。AI 巨頭 Anthropic 近日正式發佈了其旗艦模型的微調升級版 Claude Opus 4.8,該版本主打更強悍的智能體編程、多領域推理以及知識工作能力。新模型不僅在多項核心基準測試中超越了 GPT-5.5,更在解決“AI 睜眼說瞎話”這一行業頑疾上取得了長足進步。

image.png

編程缺陷銳減且判斷更敏銳

根據早期測試方的反饋,升級後的 Opus 4.8 在處理複雜的多步驟任務時表現得更加穩健。官方評估數據顯示,新模型放任自己所寫代碼存在缺陷卻不加說明的概率大幅降低了四分之三。它現在更傾向於主動標出自身的不確定性,不僅能主動識別錯誤,還會在發現用戶的初始計劃不合理時果斷提出異議。

速度狂飆且開發成本直降七成

在大幅提升邏輯嚴密性的同時,Anthropic 還對該模型的運行效率進行了深度優化。Opus 4.8 的快速模式運行速度直接飆升至此前的 2.5 倍,而模型的使用成本卻大幅削減到了老版本的僅三分之一。在行業公認的 SWE-Bench Pro 編程基準測試中,Opus 4.8 斬獲了 69.2% 的高分,在多個核心維度上成功反超了 Gemini 3.1 Pro 等強勁對手。