Cursor Composer 2 編碼能力超越 Claude Opus 4.6？基準測試掀起 AI 編碼圈新爭議

3 月 19 日，Cursor 官方宣佈自研編碼模型 Composer 2 正式上線。發佈公告一出，開發者社區立刻炸了——Cursor 給出的數據顯示，這款模型在 Terminal-Bench 2.0 上跑出 61.7%，比 Claude Opus 4.6 在相同測試環境下的 58.0% 高出一截。

Anthropic 的王牌被自家 IDE 的內置模型超了？消息傳開，討論自然少不了。

三項核心跑分

Cursor 此次公佈了三組基準數據，均爲官方發佈：

Terminal-Bench 2.0（代理式終端編碼任務）：Composer 2 達 61.7%，高於 Claude Opus 4.6 的 58.0%；但 OpenAI GPT-5.4 仍以 75.1% 領跑。
CursorBench（Cursor 內部真實編碼場景）：Composer 2 達 61.3%，較上一代 Composer 1.5 的 44.2% 大幅躍升，也高於 Claude Opus 4.6 的 58.2%。
SWE-bench Multilingual（多語言軟件工程）：Composer 2 取得 73.7%，相比上一代同樣有顯著提升。

不過這裏有個值得留意的地方：Anthropic 官方曾公佈 Claude Opus 4.6 在優化設置下的 Terminal-Bench 2.0 成績爲 65.4%，比 Cursor 測試環境裏的 58.0% 高不少。差異來源在於測試框架——Cursor 用的是 Harbor 等第三方 agent 環境，跑了 5 輪取平均，而 Anthropic 的數字是自家優化配置下的結果。兩套數據本來就不在同一個參照系裏，直接拉出來比有點關公戰秦瓊的意思。Cursor 也沒有刻意迴避這點，在公告裏明確標註了"結果依賴 agent、harness 和設置"。

成本只有 Opus 4.6 的十分之一

性價比纔是 Composer 2 真正的底牌。

定價 $0.50 / $2.50（每百萬輸入 / 輸出 tokens），對比 Claude Opus 4.6 的 $5 / $25 和 GPT-5.4 的 $2.5 / $15，差距一目瞭然。Cursor 的解釋是，Composer 2 從一開始就專爲長時程編碼任務設計，結合自研 RL 訓練和"self-summarization"技術，把速度和成本同時壓下來——他們的說法是"前沿智能 + 極致速度"。

Composer 2 是 Cursor 第三代自研模型，前身分別是 2025 年 10 月的 Composer 1 和 2026 年 2 月的 1.5 版。這次升級重點落在"long-horizon tasks"（長週期任務），並將一個更快的輕量變體設爲 Cursor IDE 的默認模型。

這場"逆襲"說明了什麼

Cursor 敢於把自家模型拿去跟 Opus 4.6 正面比，背後是 AI 編碼工具賽道整體邏輯的轉變。

OpenAI、Anthropic 在卷通用前沿能力，而 Cursor 這類垂直工具廠商走的是另一條路：在特定任務上磨到足夠好，再用價格優勢拉開差距。VentureBeat、The New Stack 等媒體跟進報道時，普遍提到 Composer 2 會加速"多模型路由"的實際落地——複雜推理用 Opus 或 GPT，日常高頻編碼切回 Composer 2，兩頭都不虧。

Claude Opus 4.6 於今年 2 月 5 日發佈，在 Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA 等多項榜單上當時都處於領跑位置。Cursor 的這波數據，至少在編碼這個細分賽道，讓這個結論打上了問號。

開發者反饋目前以正面爲主，但不少人表示要等實際項目跑一跑再下結論——這倒也合理，基準永遠只是基準。Cursor 目前已向訂閱用戶開放 Composer 2 在 IDE 內的免費試用。

數據來源：Cursor 官方公告及主流科技媒體報道，截至 2026 年 3 月 20 日。實時排行榜可參考 tbench.ai 或 Cursor 官網。

Cursor Composer 2 編碼能力超越 Claude Opus 4.6？基準測試掀起 AI 編碼圈新爭議

三項核心跑分

成本只有 Opus 4.6 的十分之一

這場"逆襲"說明了什麼

相關推薦

Claude 語音模式終於用上 Opus 了：從"隨口問答"升級成能調工具、換語言的實時參謀

阿里開源0.8B文檔解析模型OvisOCR2，端到端方案登頂OmniDocBench

騰訊甩出 WorkBuddy Bench：一套把代碼、網頁、辦公、安全全裝進來的編碼智能體考場

英偉達砸15億美元聯手Amkor擴產先進封裝提前卡位AI算力供應鏈

OpenAI全面開放ChatGPT Health功能：整合Apple Health與電子病歷，每週 3 億用戶諮詢健康問題

Cursor Composer 2 編碼能力超越 Claude Opus 4.6？基準測試掀起 AI 編碼圈新爭議

三項核心跑分

成本只有 Opus 4.6 的十分之一

這場"逆襲"說明了什麼

相關推薦

Claude 語音模式終於用上 Opus 了：從"隨口問答"升級成能調工具、換語言的實時參謀

阿里開源0.8B文檔解析模型OvisOCR2，端到端方案登頂OmniDocBench

騰訊甩出 WorkBuddy Bench：一套把代碼、網頁、辦公、安全全裝進來的編碼智能體考場

英偉達砸15億美元聯手Amkor擴產先進封裝 提前卡位AI算力供應鏈

OpenAI全面開放ChatGPT Health功能：整合Apple Health與電子病歷，每週 3 億用戶諮詢健康問題

英偉達砸15億美元聯手Amkor擴產先進封裝提前卡位AI算力供應鏈