Anthropic在深夜突然發佈Claude Sonnet4.5版本,這次更新不僅在技術指標上實現全面提升,更通過實驗性功能Imagine with Claude展示了AI實時生成軟件界面的創新方向。
Claude Sonnet4.5在編碼能力方面取得顯著突破。該模型在SWE-bench Verified基準測試中獲得77.2%的分數,超越前代Claude Opus4.1的74.5%,被Anthropic稱爲全球最佳編碼模型。在邏輯推理、高級數學和多步驟編碼任務上均有出色表現,能夠自主運行超過30小時處理複雜代理任務。

值得注意的是,儘管Sonnet4.5的模型規模小於Opus4.1,但在多數能力維度上實現領先。定價策略保持不變,API輸入爲每百萬token3美元,輸出爲每百萬token15美元,可通過Claude API、Amazon Bedrock和Google Vertex AI訪問。
在安全性方面,新版本優化了模型對齊性,減少了討好用戶、欺騙等不良行爲模式,並採用ASL-3安全框架過濾潛在危險內容。該模型已經能夠獨立重建Claude.ai網頁應用,耗時5.5小時完成超過3000次工具調用,展現出接近生產級應用的能力。
此次發佈的核心亮點是Imagine with Claude實驗功能,該功能僅向Max訂閱用戶開放5天體驗期。這個臨時性功能提供類似桌面環境的交互界面,用戶通過自然語言輸入需求,Claude Sonnet4.5會實時流式生成UI元素、功能邏輯和交互機制。
與傳統軟件開發不同,Imagine功能不依賴預設代碼或固定模板,而是根據用戶意圖動態生成完整應用。例如用戶提出創建天氣預報應用的需求時,AI會即時渲染界面、實現功能邏輯和數據交互。用戶還可以將生成的應用放置在桌面環境中使用。
配合模型發佈,Anthropic推出了Claude Agent SDK,允許開發者使用內部基礎設施構建自定義代理,支持虛擬機訪問、內存管理和多代理協作。Claude Code新增了檢查點功能支持即時回滾進度,並集成了VS Code和JetBrains開發環境,以及面向Max用戶的Chrome擴展。
Imagine with Claude功能引發了關於AI原生操作系統的廣泛討論。這種實時生成界面的方式挑戰了傳統軟件開發範式,不再依賴預先編寫的代碼,而是讓AI根據用戶意圖動態演化界面和邏輯。
需要指出的是,Imagine功能目前仍處於早期實驗階段,複雜UI的按鈕響應存在延遲問題,需要進一步優化。Anthropic表示此舉旨在探索代理能力的邊界,未來將擴展至更多應用場景。
從技術發展趨勢來看,Claude Sonnet4.5鞏固了Anthropic在編碼領域的競爭地位,而Imagine功能則代表了一種新的人機交互範式探索。這種實時生成軟件界面的能力,可能爲未來的應用開發和用戶體驗設計帶來根本性變革。
不過需要保持理性認知,當前的實驗性功能距離真正的AI原生操作系統還有相當距離。穩定性、性能優化、安全性保障等諸多問題都需要在實際應用中逐步解決。
