近日,Mistral AI 与 All Hands AI 合作,推出了针对开发者的大型语言模型 Devstral2507系列,包含两款新模型:Devstral Small1.1和 Devstral Medium2507。这些模型旨在支持基于智能代理的代码推理、程序合成和结构化任务执行,适用于大型软件代码库的实际应用。这次发布在性能和成本上进行了优化,使其在开发工具和代码自动化系统中具有广泛的应用潜力。

image.png

Devstral Small1.1是一款开源模型,基于 Mistral-Small-3.1基础模型,拥有约240亿个参数。该模型支持128k 的上下文窗口,能够处理多文件代码输入和复杂的长提示,符合软件工程工作流程的特点。此版本特别针对结构化输出进行微调,包括 XML 和函数调用格式,使其与 OpenHands 等代理框架兼容,适合程序导航、多步骤编辑和代码搜索等任务。Devstral Small1.1的许可为 Apache2.0,支持研究和商业用途。

在性能测试方面,Devstral Small1.1在 SWE-Bench Verified 基准测试中获得53.6% 的成绩,证明其在为真实的 GitHub 问题生成正确补丁方面表现优异。虽然其性能不及大型商业模型,但在大小、推理成本和推理能力之间找到了一个平衡点,适合多种编码任务。

此外,该模型以多种格式发布,包括可以在高内存 GPU(如 RTX4090)或32GB RAM 以上的 Apple Silicon 机器上进行本地推理的量化版本。同时,Mistral 还通过其推理 API 提供模型,当前的收费标准与 Mistral-Small 系列模型相同。

Devstral Medium2507则仅通过 Mistral API 或企业部署协议提供,并不开放源代码。该模型在 SWE-Bench Verified 基准测试中得分为61.6%,在长上下文的推理能力上表现出色,能够超越一些商业模型,如 Gemini2.5Pro 和 GPT-4.1。此模型的 API 收费标准高于 Small 版本,但其强大的推理能力使其非常适合在大型代码库中执行任务。

Devstral Small 更适合本地开发、实验或集成到客户端开发工具中,而 Devstral Medium 则在结构化代码编辑任务中提供更高的准确性和一致性,适合需要高性能的生产服务。两款模型的设计都支持与代码代理框架的集成,使其能够简化测试生成、重构和错误修复的自动化工作流程。

通过此次发布,Mistral AI 的 Devstral2507系列为开发者提供了不同的选择,以满足不同的软件工程需求,从实验性的代理开发到商业环境中的实际部署,都能得到有效支持。

huggingface:https://huggingface.co/mistralai/Devstral-Small-2507

划重点:  

🌟 Devstral2507系列包括开源的 Devstral Small1.1和企业版的 Devstral Medium2507,旨在提升代码推理与自动化能力。  

🚀 Devstral Small1.1在 SWE-Bench 基准测试中得分53.6%,而 Devstral Medium2507得分61.6%,后者表现优于一些商业模型。  

💼 两款模型支持与代码代理框架集成,适用于从本地开发到企业级服务的多种应用场景。