Claude3.5重磅升級：Sonnet編碼能力秒殺o1，Haiku性價比無敵，還會用電腦！

Anthropic 震撼發佈升級版 Claude3.5Sonnet 和全新模型 Claude3.5Haiku，兩款模型均在推理、編碼和視覺處理方面取得了顯著進步。Claude3.5Sonnet 進行了全面升級，其編碼能力在業界領先，並在多項行業基準測試中表現出色。

尤其值得一提的是，它在 SWE-bench Verified 測試中取得了49.0% 的成績，超越了所有公開模型，包括 OpenAI o1-preview 等推理模型以及專門爲代理編碼設計的系統。

此外，它在代理工具使用任務 TAU-bench 的零售領域也取得了69.2% 的成績，在更具挑戰性的航空領域取得了46.0% 的成績。

最令人矚目的是，Claude3.5Sonnet 率先在公開測試版中引入了“計算機使用”功能，該功能允許開發者像人一樣使用電腦。這意味着 Claude 可以查看屏幕、移動光標、點擊按鈕和輸入文本，爲自動化流程、軟件構建和測試以及開放式任務開闢了新的可能性。

Claude3.5Haiku 則是 Anthropic 最快的模型，其性能與 Claude3Opus 相當，但成本更低，速度更快。它在編碼任務上表現尤爲出色，例如在 SWE-bench Verified 測試中取得了40.6% 的成績，超越了許多使用公開最先進模型的代理，包括最初的 Claude3.5Sonnet 和 GPT-4o。

Claude3.5Haiku 非常適合面向用戶的產品、專門的子代理任務以及從海量數據（如購買歷史記錄、定價或庫存記錄）中生成個性化體驗。

爲了實現這些通用技能，Anthropic 構建了一個 API，允許 Claude 感知和交互計算機界面。開發者可以集成此 API，使 Claude 能夠將指令（例如，“使用我的計算機和在線數據填寫此表單”）轉換爲計算機命令(例如檢查電子表格;移動光標以打開 Web 瀏覽器;導航到相關的網頁;用這些網頁上的數據填寫表單等等)。

在評估 AI 模型像人一樣使用計算機的能力的 OSWorld 測試中，Claude3.5Sonnet 在僅限屏幕截圖的類別中取得了14.9% 的成績，明顯優於排名第二的 AI 系統7.8% 的成績。當有更多步驟來完成任務時，Claude 的得分達到了22.0%。

Anthropic 強調，儘管預計此功能在未來幾個月內將迅速改進，但 Claude 目前使用計算機的能力還不完美。人類可以輕鬆執行的一些操作（如：滾動、拖動、縮放）目前對 Claude 來說仍具有挑戰性， Anthropic 鼓勵開發者從低風險的任務開始探索。

由於計算機使用可能會爲垃圾郵件、虛假信息或欺詐等更常見的威脅提供新的途徑，因此 Anthropic 正在採取積極主動的方法來促進其安全部署。他們開發了新的分類器，可以識別何時使用計算機以及是否正在發生危害。

目前，Claude3.5Sonnet 已經向所有用戶開放。從今天開始，開發者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用“計算機使用”測試版進行構建。新的 Claude3.5Haiku 將於本月晚些時候發佈。

Claude3.5重磅升級：Sonnet編碼能力秒殺o1，Haiku性價比無敵，還會用電腦！

相關推薦

Anthropic祕密提交IPO申請:擬以600億美元估值衝擊二級市場

智譜發佈GLM-5.1:SWE-bench評分全球領跑，模型單價上調10%

谷歌雲×Replit簽下多年大單：Claude 3.5 Sonnet+Gemini 1.5 Flash雙模型加持，“氛圍編程”正式宣戰Anthropic

Anthropic 推出 Claude Opus4.5:邁向更高智能與效率的混合推理模型

99.7%成本差!AI模仿作家風格更受青睞，直指“合理使用”邊界引爆版權訴訟