小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508，并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式，还提升了 RL 训练的稳定性，在多项能力评测中取得了显著进步。同时，用户还可以在“思考模式”和“非思考模式”之间灵活切换，以适应不同场景需求。

与今年5月发布的 MiMo-VL-7B-RL 相比，新版本在多项权威 benchmark 上实现了突破:

学科推理测试 MMMU:从66.7提升至70.6，首次突破70分

文档理解测试 ChartQA:从91.7提升至94.4

GUI 定位测试 ScreenSpot-v2:从90.5提升至92.5

视频理解测试 VideoMME:从67.4提升至70.8

在交互体验上，新版本引入了自主控制的思考模式切换功能。默认的“思考模式”会展示完整推理过程，性能更全面且控制成功率达100%;而“非思考模式”则跳过推理环节，响应速度更快，控制成功率为99.84%，适合对实时性要求高的任务。

根据小米内部 VLM Arena 评分，新版 MiMo-VL-7B-RL-2508获得了1131.2分，明显高于上一代的1093.9分。评测结果显示，该模型在多数基准测试中全面超越前代版本，即便在非思考模式下，也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比，MiMo-VL-7B-RL-2508依旧处于领先地位。

重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”

全球AI领域正经历“AI母语”技术变革。针对当前大模型“语言中心、外挂视觉或语音”的拼凑架构，团队发布并开源了原生多模态大模型LongCat-Next及离散分词器，旨在打破模态壁垒，让AI像处理文字一样理解物理世界。核心是通过重构底层架构实现突破。

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

相关推荐

英伟达推出统一音频智能模型 Nemotron-Labs-Audex-30B-A3B

AI 视频赛道格局重塑：谷歌 Gemini Omni Flash 登顶盲测榜首

商汤科技秘密研发多模态模型“U1Pro”:由林达华牵头，预计7月启动内测对标OpenAI

重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”

先理解再动手！字节开源统一框架 Bernini，让 AI 视频编辑告别“碰运气”