小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508,并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式,还提升了 RL 训练的稳定性,在多项能力评测中取得了显著进步。同时,用户还可以在“思考模式”和“非思考模式”之间灵活切换,以适应不同场景需求。

与今年5月发布的 MiMo-VL-7B-RL 相比,新版本在多项权威 benchmark 上实现了突破:

学科推理测试 MMMU:从66.7提升至70.6,首次突破70分

文档理解测试 ChartQA:从91.7提升至94.4

GUI 定位测试 ScreenSpot-v2:从90.5提升至92.5

视频理解测试 VideoMME:从67.4提升至70.8

在交互体验上,新版本引入了自主控制的思考模式切换功能。默认的“思考模式”会展示完整推理过程,性能更全面且控制成功率达100%;而“非思考模式”则跳过推理环节,响应速度更快,控制成功率为99.84%,适合对实时性要求高的任务。

根据小米内部 VLM Arena 评分,新版 MiMo-VL-7B-RL-2508获得了1131.2分,明显高于上一代的1093.9分。评测结果显示,该模型在多数基准测试中全面超越前代版本,即便在非思考模式下,也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比,MiMo-VL-7B-RL-2508依旧处于领先地位。