Anthropic重磅升級Claude 3.5 系列模型，像人一樣操作電腦！

人工智能公司 Anthropic 宣佈Claude3.5系列模型的重磅升級，包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升級後的版本號稱可以讓人工智能全面接管你的個人電腦，它能夠執行多種基本任務，比如模擬輸入鍵盤和鼠標點擊，從而使用你電腦上安裝的任何應用程序。

編碼能力顯著提升，超越OpenAI o1-preview 模型

新的 Claude3.5Sonnet 在各方面都有顯著提升，尤其是在編碼能力方面。它在 SWE-bench Verified 上的得分從33.4% 提升到49.0%，超越了所有公開可用的模型，包括 OpenAI 的 o1-preview 模型。

此外，它在 TAU-bench 上的表現也有所提升，特別是在零售和航空領域。這一切都在保持與前產品相同的價格和速度下實現。

客戶的反饋顯示，升級後的 Claude3.5Sonnet 在 AI 編碼方面有了質的飛躍。例如，GitLab 測試了這個模型用於 DevSecOps 任務，發現其推理能力有了明顯提升，且沒有增加延遲。

Claude3.5Haiku 是Claude下一代最快的模型，以相同的成本和速度超越了 Claude3Opus，並在多個智能基準測試中表現出色，特別是在編碼任務上。Claude3.5Haiku 的低延遲和更精準的指令跟隨能力，使其非常適合用戶界面產品和個性化體驗的生成。

像人類一樣操縱電腦

新推出的電腦使用功能是一個全新的嘗試。官方表示這並不是爲 Claude 開發特定的工具，而是教授它通用的計算機技能，讓它能夠使用各種標準工具和軟件程序。開發者可以利用這一能力來自動化重複的流程、構和測試軟件，以及進行開放性研究等。

當然，目前 Claude 在使用計算機時的能力仍然有待提高。一些簡單的操作，比如滾動和拖動，目前對於 Claude 來說仍然存在挑戰。爲了確保安全，官方還開發了新的分類器，能夠識別電腦使用是否造成了潛在的危害。

Anthropic 的首席科學官賈裏德・卡普蘭在接受採訪時表示:“我們即將進入一個新時代，人工智能可以利用你作爲個人所使用的所有工具來完成任務。” 這項更新標誌着 Anthropic 在將商業 AI 模型從傳統的聊天框架擴展爲全面的 “AI 代理” 方面邁出了重要一步。

在一段演示中，Claude 被要求爲朋友計劃一次去金門大橋觀看日出的旅行。AI 不僅打開了網頁，還在谷歌上查找了一個合適的觀景地點，並將行程添加到日曆應用中。雖然這個表現令人印象深刻，但《連線》指出，它並沒有提供一些額外的信息，比如如何到達目的地。

此外，在另一個演示中，Claude 被要求搭建一個簡單的網站，結果它使用微軟的 Visual Studio Code 成功創建了一個網站，並打開本地服務器進行測試。不過，在這個過程中，它遇到了一些小錯誤，但在提示下成功修復了代碼。

Claude 3.5 Sonne通過從客戶關係管理系統（CRM）中檢索所需信息，自主完成一份供應商申請表，展示了其在不同軟件平臺上執行多步驟任務的能力。

升級後的 Claude3.5Sonnet 現在可供所有用戶使用。從今天開始，開發人員可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用計算機測試版進行構建。而新的 Claude3.5Haiku 將於本月晚些時候發佈。

官方博客：https://www.anthropic.com/news/3-5-models-and-computer-use

劃重點:
🌟 Claude3.5Sonnet 和 Haiku 模型重磅升級，編碼能力顯著提升。
💻 新推出的電腦使用功能允許 Claude 像人一樣操作計算機，開啓更多可能性。
🔒 使用 AI 助手帶來了安全隱患，Anthropic 強調逐步觀察和改進以確保安全性。

三星贏得 Anthropic 大單，AI 芯片生產迎來新機遇！