Mistral AI 正式推出第二代開源編碼模型家族:Devstral2(1230億參數旗艦版)與 Devstral Small2(240億參數輕量版)。旗艦模型在 SWE-Bench Verified 基準拿下72.2% 得分,刷新開源類別最佳成績;官方宣稱「成本效益比 Claude Sonnet 低7倍」,並同步開源 CLI 工具 Mistral Vibe,支持自然語言批量改代碼。兩款模型已上線 API,Devstral2每百萬輸入 token0.40美元,輕量版 完全免費 。

模型速覽:一大一小,開源雙軌  

image.png

性能突破:72.2% 刷新開源代碼模型紀錄  

- SWE-Bench Verified:Devstral2得分72.2%,超越 CodeLlama-70B(53.8%)、DeepSeek-Coder-33B(61.4%),距離 GPT-4-Turbo(73.2%)僅1pp  

- HumanEval:84.1% Pass@1,領先同類開源模型6-8pp  

- 成本:官方稱「比 Claude Sonnet 便宜7倍」;0.4$/M in 約爲 GPT-4-Turbo 的1/5

開源工具:Mistral Vibe —— 自然語言批量改代碼  

- 功能:一句「把函數改爲異步」可自動重寫整個倉庫,支持 diff 預覽與回滾  

- 引擎:本地調用 Devstral Small2(Apache2.0),無需聯網即可跑  

- 集成:VS Code 插件已上架,支持一鍵修復 ESLint 錯誤或添加單測

商業策略:輕量免費+旗艦 API,分層收割  

- Devstral Small2:Apache2.0,可商用、可微調、可嵌入  

- Devstral2:修改 MIT,月營收>2000萬美元需購買商業許可或走官方 API,避免「大廠白嫖」  

- API 定價:輸入0.4$/M、輸出1.2$/M;前30天免費額度100萬 token

行業信號:開源編碼模型進入「70+ 俱樂部」  

-2024年主流開源代碼模型 SWE-Bench 普遍50-60%;Devstral2直接把門檻拉到72%+  

- 低成本+高分數,將衝擊 GitHub Copilot、Cursor 等付費插件的性價比  

- 輕量版完全免費,有望加速「本地 AI 編碼助手」普及,開發者 RTX4090即可跑24B 模型

 下一步:2025路線圖  

- Q1:發佈 Devstral2-INT4量化版,單 A100即可跑;推出 Jetson Orin 邊緣部署包  

- Q2:開放128k 上下文版本,支持整個代碼庫+文檔作爲 prompt  

- Q3:上線「Vibe Cloud」——瀏覽器內自然語言重構整包代碼,按項目計費

 編輯結語  

當「代碼生成」捲到70+ 分,勝負手從「模型能力」轉向「成本與合規」。Devstral2用0.4美元百萬 token 把價格打到骨折,再通過「修改 MIT」堵住大廠免費商用漏洞;輕量版則徹底開源,搶佔本地部署心智。對於開發者而言,「免費24B + 低價1230B」組合意味着:本地寫代碼、雲端跑重活,無需再爲 Copilot 訂閱買單。AIbase 將持續跟蹤其量化版本與128k 長下文發佈。