Anthropic 震撼發佈升級版 Claude3.5Sonnet 和全新模型 Claude3.5Haiku,兩款模型均在推理、編碼和視覺處理方面取得了顯著進步。Claude3.5Sonnet 進行了全面升級,其編碼能力在業界領先,並在多項行業基準測試中表現出色。 

尤其值得一提的是,它在 SWE-bench Verified 測試中取得了49.0% 的成績,超越了所有公開模型,包括 OpenAI o1-preview 等推理模型以及專門爲代理編碼設計的系統。

此外,它在代理工具使用任務 TAU-bench 的零售領域也取得了69.2% 的成績,在更具挑戰性的航空領域取得了46.0% 的成績。

image.png

最令人矚目的是,Claude3.5Sonnet 率先在公開測試版中引入了“計算機使用”功能,該功能允許開發者像人一樣使用電腦。這意味着 Claude 可以查看屏幕、移動光標、點擊按鈕和輸入文本,爲自動化流程、軟件構建和測試以及開放式任務開闢了新的可能性。

Claude3.5Haiku 則是 Anthropic 最快的模型,其性能與 Claude3Opus 相當,但成本更低,速度更快。 它在編碼任務上表現尤爲出色,例如在 SWE-bench Verified 測試中取得了40.6% 的成績,超越了許多使用公開最先進模型的代理,包括最初的 Claude3.5Sonnet 和 GPT-4o。 

Claude3.5Haiku 非常適合面向用戶的產品、專門的子代理任務以及從海量數據(如購買歷史記錄、定價或庫存記錄)中生成個性化體驗。

爲了實現這些通用技能,Anthropic 構建了一個 API,允許 Claude 感知和交互計算機界面。 開發者可以集成此 API,使 Claude 能夠將指令(例如,“使用我的計算機和在線數據填寫此表單”)轉換爲計算機命令(例如檢查電子表格;移動光標以打開 Web 瀏覽器;導航到相關的網頁;用這些網頁上的數據填寫表單等等)。

image.png

image.png

image.png

在評估 AI 模型像人一樣使用計算機的能力的 OSWorld 測試中,Claude3.5Sonnet 在僅限屏幕截圖的類別中取得了14.9% 的成績,明顯優於排名第二的 AI 系統7.8% 的成績。當有更多步驟來完成任務時,Claude 的得分達到了22.0%。

Anthropic 強調,儘管預計此功能在未來幾個月內將迅速改進,但 Claude 目前使用計算機的能力還不完美。 人類可以輕鬆執行的一些操作(如:滾動、拖動、縮放)目前對 Claude 來說仍具有挑戰性, Anthropic 鼓勵開發者從低風險的任務開始探索。

image.png

由於計算機使用可能會爲垃圾郵件、虛假信息或欺詐等更常見的威脅提供新的途徑,因此 Anthropic 正在採取積極主動的方法來促進其安全部署。他們開發了新的分類器,可以識別何時使用計算機以及是否正在發生危害。

目前,Claude3.5Sonnet 已經向所有用戶開放。從今天開始,開發者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用“計算機使用”測試版進行構建。新的 Claude3.5Haiku 將於本月晚些時候發佈。