3 月 19 日,Cursor 官方宣佈自研編碼模型 Composer 2 正式上線。發佈公告一出,開發者社區立刻炸了——Cursor 給出的數據顯示,這款模型在 Terminal-Bench 2.0 上跑出 61.7%,比 Claude Opus 4.6 在相同測試環境下的 58.0% 高出一截。
Anthropic 的王牌被自家 IDE 的內置模型超了?消息傳開,討論自然少不了。

三項核心跑分
Cursor 此次公佈了三組基準數據,均爲官方發佈:
- Terminal-Bench 2.0(代理式終端編碼任務):Composer 2 達 61.7%,高於 Claude Opus 4.6 的 58.0%;但 OpenAI GPT-5.4 仍以 75.1% 領跑。
- CursorBench(Cursor 內部真實編碼場景):Composer 2 達 61.3%,較上一代 Composer 1.5 的 44.2% 大幅躍升,也高於 Claude Opus 4.6 的 58.2%。
- SWE-bench Multilingual(多語言軟件工程):Composer 2 取得 73.7%,相比上一代同樣有顯著提升。
不過這裏有個值得留意的地方:Anthropic 官方曾公佈 Claude Opus 4.6 在優化設置下的 Terminal-Bench 2.0 成績爲 65.4%,比 Cursor 測試環境裏的 58.0% 高不少。差異來源在於測試框架——Cursor 用的是 Harbor 等第三方 agent 環境,跑了 5 輪取平均,而 Anthropic 的數字是自家優化配置下的結果。兩套數據本來就不在同一個參照系裏,直接拉出來比有點關公戰秦瓊的意思。Cursor 也沒有刻意迴避這點,在公告裏明確標註了"結果依賴 agent、harness 和設置"。
成本只有 Opus 4.6 的十分之一
性價比纔是 Composer 2 真正的底牌。
定價 $0.50 / $2.50(每百萬輸入 / 輸出 tokens),對比 Claude Opus 4.6 的 $5 / $25 和 GPT-5.4 的 $2.5 / $15,差距一目瞭然。Cursor 的解釋是,Composer 2 從一開始就專爲長時程編碼任務設計,結合自研 RL 訓練和"self-summarization"技術,把速度和成本同時壓下來——他們的說法是"前沿智能 + 極致速度"。
Composer 2 是 Cursor 第三代自研模型,前身分別是 2025 年 10 月的 Composer 1 和 2026 年 2 月的 1.5 版。這次升級重點落在"long-horizon tasks"(長週期任務),並將一個更快的輕量變體設爲 Cursor IDE 的默認模型。
這場"逆襲"說明了什麼
Cursor 敢於把自家模型拿去跟 Opus 4.6 正面比,背後是 AI 編碼工具賽道整體邏輯的轉變。
OpenAI、Anthropic 在卷通用前沿能力,而 Cursor 這類垂直工具廠商走的是另一條路:在特定任務上磨到足夠好,再用價格優勢拉開差距。VentureBeat、The New Stack 等媒體跟進報道時,普遍提到 Composer 2 會加速"多模型路由"的實際落地——複雜推理用 Opus 或 GPT,日常高頻編碼切回 Composer 2,兩頭都不虧。
Claude Opus 4.6 於今年 2 月 5 日發佈,在 Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA 等多項榜單上當時都處於領跑位置。Cursor 的這波數據,至少在編碼這個細分賽道,讓這個結論打上了問號。
開發者反饋目前以正面爲主,但不少人表示要等實際項目跑一跑再下結論——這倒也合理,基準永遠只是基準。Cursor 目前已向訂閱用戶開放 Composer 2 在 IDE 內的免費試用。
數據來源:Cursor 官方公告及主流科技媒體報道,截至 2026 年 3 月 20 日。實時排行榜可參考 tbench.ai 或 Cursor 官網。
