法國人工智能模型製造商 Mistral 在因其最新閉源模型 Medium3受到部分開源社區批評後,迅速回歸開源路線。該公司近日與開源初創公司 All Hands AI(OpenDevin 的創建者)合作,推出了全新的開源語言模型 Devstral。這款擁有2400萬參數的輕量級模型,專爲代理 AI 軟件開發而設計,其性能甚至在特定基準測試中超越了許多參數高達數十億的競爭對手,包括一些閉源模型。
與傳統側重於代碼補全或獨立函數生成的 LLM 不同,Devstral 經過優化,能夠充當完整的軟件工程代理。這意味着它可以理解跨文件的上下文,瀏覽大型代碼庫,並解決實際的軟件開發問題。更重要的是,Devstral 基於寬鬆的 Apache2.0許可證發佈,允許開發者和組織自由地部署、修改和商業化該模型。
Mistral AI 研究科學家 Baptiste Rozière 強調,他們希望爲開發者社區提供一款可以在本地私下運行並根據需求修改的開源工具,Apache2.0協議賦予了用戶極大的自由度。
基於 Codestral 的成功迭代
Devstral 是 Mistral 以代碼爲中心的模型系列 Codestral 的最新進展。Codestral 於2024年5月首次亮相,是一個擁有220億參數、支持80多種編程語言的專業編碼 LLM,並在代碼生成和補全任務中表現出色。其快速迭代催生了基於 Mamba 架構的增強版 Codestral-Mamba 以及最新的 Codestral25.01,後者尤其受到 IDE 插件開發者和企業用戶的青睞。Codestral 系列的成功爲 Devstral 的誕生奠定了堅實的基礎,使其能夠從簡單的代碼補全擴展到完整的代理任務執行。
SWE 基準測試中表現驚豔
在 SWE-Bench Verified 基準測試中,Devstral 取得了46.8% 的優異成績。SWE-Bench Verified 是一個包含500個真實 GitHub 問題的數據集,並經過人工驗證以確保其正確性。這一成績不僅領先於所有此前發佈的開源模型,甚至超越了包括 GPT-4.1-mini 在內的多個閉源模型,領先幅度超過20個百分點。
Rozière 自豪地表示,Devstral 是迄今爲止在 SWE-bench 驗證和代碼代理方面表現最佳的開源模型,並且令人驚訝的是,它僅有2400萬參數,甚至可以在 MacBook 上本地運行。Mistral AI 開發者關係主管 Sophia Yang 博士也在社交媒體上指出,Devstral 在各種框架下的評估中都優於許多閉源替代方案。
Devstral 的卓越性能得益於對 Mistral Small3.1基礎模型進行的強化學習和安全調整技術。Rozière 解釋說,他們首先選擇了一個強大的基礎模型,然後利用專門的技術提升了其在 SWE-bench 上的表現。
不僅僅是代碼生成,更是 AI 軟件開發代理的基石
Devstral 的目標不僅僅是生成代碼,更重要的是能夠集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理框架中。這些框架使得 Devstral 能夠與測試用例交互、導航源代碼文件以及跨項目執行多步驟任務。Rozière 透露,Devstral 將與 OpenDevin 一同發佈,後者爲代碼代理提供了一個腳手架,充當開發者模型的後端。
爲了確保模型的可靠性,Mistral 在不同的代碼庫和內部工作流程中對 Devstral 進行了嚴格的測試,以避免過度擬合 SWE-bench 基準。他們僅使用來自非 SWE-bench 數據集的數據進行訓練,並在不同的框架上驗證了模型的性能。
高效部署與商業友好的開源許可
Devstral 緊湊的2400萬參數架構使得開發者可以在本地輕鬆運行,無論是配備單個 RTX4090GPU 的機器,還是擁有32GB 內存的 Mac 電腦。這對於注重隱私保護和需要在邊緣設備上部署的應用場景極具吸引力。Rozière 表示,該模型的目標用戶包括熱衷於本地和私有化操作的開發者和愛好者,他們甚至可以在沒有互聯網的環境中使用。
除了性能和可移植性之外,Devstral 的 Apache2.0許可證也爲商業應用提供了極大的便利。該許可證允許無限制地使用、改編和分發,包括在專有產品中,這大大降低了企業採用的門檻。
Devstral 擁有128,000個 token 的上下文窗口,並使用包含131,000個詞彙的鐵拳分詞器。它支持通過 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 等主流開源平臺進行部署,並與 vLLM、Transformers 和 Mistral Inference 等庫良好兼容。
API 與本地部署雙管齊下
開發者可以通過 Mistral 的 Le Platforme API 訪問 Devstral,模型名稱爲 devstral-small-2505,定價爲每百萬輸入 token0.10美元,每百萬輸出 token0.30美元。對於希望本地部署的用戶,對 OpenHands 等框架的支持可以實現與代碼庫和代理工作流的即時集成。Rozière 分享了他自己如何使用 Devstral 來完成更新軟件包版本或修改標記化腳本等小型開發任務,並對其在代碼中精確定位和修改的能力表示讚賞。
儘管 Devstral 目前以研究預覽版的形式發佈,但 Mistral 和 All Hands AI 已經着手開發功能更強大、規模更大的後續模型。Rozière 認爲,小型模型和大型模型之間的差距正在迅速縮小,而 Devstral 等模型的出色表現已經能夠與一些規模更大的競爭對手相媲美。
憑藉其卓越的性能基準、寬鬆的開源許可和專爲代理設計優化的特性,Devstral 不僅是一款強大的代碼生成工具,更將成爲構建自主軟件工程系統的關鍵基礎模型。