人工智能公司 Anthropic 宣佈Claude3.5系列模型的重磅升級,包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升級後的版本號稱可以讓人工智能全面接管你的個人電腦,它能夠執行多種基本任務,比如模擬輸入鍵盤和鼠標點擊,從而使用你電腦上安裝的任何應用程序。
編碼能力顯著提升,超越OpenAI o1-preview 模型
新的 Claude3.5Sonnet 在各方面都有顯著提升,尤其是在編碼能力方面。它在 SWE-bench Verified 上的得分從33.4% 提升到49.0%,超越了所有公開可用的模型,包括 OpenAI 的 o1-preview 模型。
此外,它在 TAU-bench 上的表現也有所提升,特別是在零售和航空領域。這一切都在保持與前產品相同的價格和速度下實現。
客戶的反饋顯示,升級後的 Claude3.5Sonnet 在 AI 編碼方面有了質的飛躍。例如,GitLab 測試了這個模型用於 DevSecOps 任務,發現其推理能力有了明顯提升,且沒有增加延遲。
Claude3.5Haiku 是Claude下一代最快的模型,以相同的成本和速度超越了 Claude3Opus,並在多個智能基準測試中表現出色,特別是在編碼任務上。Claude3.5Haiku 的低延遲和更精準的指令跟隨能力,使其非常適合用戶界面產品和個性化體驗的生成。
像人類一樣操縱電腦
新推出的電腦使用功能是一個全新的嘗試。官方表示這並不是爲 Claude 開發特定的工具,而是教授它通用的計算機技能,讓它能夠使用各種標準工具和軟件程序。開發者可以利用這一能力來自動化重複的流程、構和測試軟件,以及進行開放性研究等。
當然,目前 Claude 在使用計算機時的能力仍然有待提高。一些簡單的操作,比如滾動和拖動,目前對於 Claude 來說仍然存在挑戰。爲了確保安全,官方還開發了新的分類器,能夠識別電腦使用是否造成了潛在的危害。
Anthropic 的首席科學官賈裏德・卡普蘭在接受採訪時表示:“我們即將進入一個新時代,人工智能可以利用你作爲個人所使用的所有工具來完成任務。” 這項更新標誌着 Anthropic 在將商業 AI 模型從傳統的聊天框架擴展爲全面的 “AI 代理” 方面邁出了重要一步。
在一段演示中,Claude 被要求爲朋友計劃一次去金門大橋觀看日出的旅行。AI 不僅打開了網頁,還在谷歌上查找了一個合適的觀景地點,並將行程添加到日曆應用中。雖然這個表現令人印象深刻,但《連線》指出,它並沒有提供一些額外的信息,比如如何到達目的地。
此外,在另一個演示中,Claude 被要求搭建一個簡單的網站,結果它使用微軟的 Visual Studio Code 成功創建了一個網站,並打開本地服務器進行測試。不過,在這個過程中,它遇到了一些小錯誤,但在提示下成功修復了代碼。
Claude 3.5 Sonne通過從客戶關係管理系統(CRM)中檢索所需信息,自主完成一份供應商申請表,展示了其在不同軟件平臺上執行多步驟任務的能力。
升級後的 Claude3.5Sonnet 現在可供所有用戶使用。從今天開始,開發人員可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用計算機測試版進行構建。而新的 Claude3.5Haiku 將於本月晚些時候發佈。
官方博客:https://www.anthropic.com/news/3-5-models-and-computer-use
劃重點:
🌟 Claude3.5Sonnet 和 Haiku 模型重磅升級,編碼能力顯著提升。
💻 新推出的電腦使用功能允許 Claude 像人一樣操作計算機,開啓更多可能性。
🔒 使用 AI 助手帶來了安全隱患,Anthropic 強調逐步觀察和改進以確保安全性。