Anthropic發佈Claude Sonnet 4.5：編碼能力登頂榜首，實驗性功能Imagine預演AI原生界面時代

Anthropic在深夜突然發佈Claude Sonnet4.5版本，這次更新不僅在技術指標上實現全面提升，更通過實驗性功能Imagine with Claude展示了AI實時生成軟件界面的創新方向。

Claude Sonnet4.5在編碼能力方面取得顯著突破。該模型在SWE-bench Verified基準測試中獲得77.2%的分數，超越前代Claude Opus4.1的74.5%，被Anthropic稱爲全球最佳編碼模型。在邏輯推理、高級數學和多步驟編碼任務上均有出色表現，能夠自主運行超過30小時處理複雜代理任務。

值得注意的是，儘管Sonnet4.5的模型規模小於Opus4.1，但在多數能力維度上實現領先。定價策略保持不變，API輸入爲每百萬token3美元，輸出爲每百萬token15美元，可通過Claude API、Amazon Bedrock和Google Vertex AI訪問。

在安全性方面，新版本優化了模型對齊性，減少了討好用戶、欺騙等不良行爲模式，並採用ASL-3安全框架過濾潛在危險內容。該模型已經能夠獨立重建Claude.ai網頁應用，耗時5.5小時完成超過3000次工具調用，展現出接近生產級應用的能力。

此次發佈的核心亮點是Imagine with Claude實驗功能，該功能僅向Max訂閱用戶開放5天體驗期。這個臨時性功能提供類似桌面環境的交互界面，用戶通過自然語言輸入需求，Claude Sonnet4.5會實時流式生成UI元素、功能邏輯和交互機制。

與傳統軟件開發不同，Imagine功能不依賴預設代碼或固定模板，而是根據用戶意圖動態生成完整應用。例如用戶提出創建天氣預報應用的需求時，AI會即時渲染界面、實現功能邏輯和數據交互。用戶還可以將生成的應用放置在桌面環境中使用。

配合模型發佈，Anthropic推出了Claude Agent SDK，允許開發者使用內部基礎設施構建自定義代理，支持虛擬機訪問、內存管理和多代理協作。Claude Code新增了檢查點功能支持即時回滾進度，並集成了VS Code和JetBrains開發環境，以及面向Max用戶的Chrome擴展。

Imagine with Claude功能引發了關於AI原生操作系統的廣泛討論。這種實時生成界面的方式挑戰了傳統軟件開發範式，不再依賴預先編寫的代碼，而是讓AI根據用戶意圖動態演化界面和邏輯。

需要指出的是，Imagine功能目前仍處於早期實驗階段，複雜UI的按鈕響應存在延遲問題，需要進一步優化。Anthropic表示此舉旨在探索代理能力的邊界，未來將擴展至更多應用場景。

從技術發展趨勢來看，Claude Sonnet4.5鞏固了Anthropic在編碼領域的競爭地位，而Imagine功能則代表了一種新的人機交互範式探索。這種實時生成軟件界面的能力，可能爲未來的應用開發和用戶體驗設計帶來根本性變革。

不過需要保持理性認知，當前的實驗性功能距離真正的AI原生操作系統還有相當距離。穩定性、性能優化、安全性保障等諸多問題都需要在實際應用中逐步解決。

Anthropic發佈Claude Sonnet 4.5：編碼能力登頂榜首，實驗性功能Imagine預演AI原生界面時代

相關推薦

中文數據佔比突破80%！國產大模型加速“去英文依賴”，文化理解成AI競爭新高地

谷歌 GV 押注!AI 車隊管理巨頭 Motive 衝擊上市，擬募資迎戰對手

50+ Claude 技能庫閃現 GitHub，教你的 AI 學會9大領域專業活兒

反壟斷重錘!意大利叫停 Meta 封殺第三方 AI 聊天的“霸王條款”

告別按月訂閱，1min.AI 推出終身全能計劃，一站式接管創作全流程