小米宣佈開源全新版本的多模態大模型——Xiaomi MiMo-VL-7B-2508,並同步推出 SFT 和 RL 兩個模型版本。此次升級不僅優化了輸出模式,還提升了 RL 訓練的穩定性,在多項能力評測中取得了顯著進步。同時,用戶還可以在“思考模式”和“非思考模式”之間靈活切換,以適應不同場景需求。
與今年5月發佈的 MiMo-VL-7B-RL 相比,新版本在多項權威 benchmark 上實現了突破:
學科推理測試 MMMU:從66.7提升至70.6,首次突破70分
文檔理解測試 ChartQA:從91.7提升至94.4
GUI 定位測試 ScreenSpot-v2:從90.5提升至92.5
視頻理解測試 VideoMME:從67.4提升至70.8
在交互體驗上,新版本引入了自主控制的思考模式切換功能。默認的“思考模式”會展示完整推理過程,性能更全面且控制成功率達100%;而“非思考模式”則跳過推理環節,響應速度更快,控制成功率爲99.84%,適合對實時性要求高的任務。
根據小米內部 VLM Arena 評分,新版 MiMo-VL-7B-RL-2508獲得了1131.2分,明顯高於上一代的1093.9分。評測結果顯示,該模型在多數基準測試中全面超越前代版本,即便在非思考模式下,也能在感知類任務中保持出色表現。與同類支持思考功能的多模態開源模型相比,MiMo-VL-7B-RL-2508依舊處於領先地位。