近日,小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒,在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B,在GUI Grounding任務上的表現更是可與專用模型相媲美,爲Agent時代的到來做好了準備。

微信截圖_20250530093852.png

MiMo-VL-7B在多模態推理任務上成績斐然,儘管參數規模僅爲7B,卻在奧林匹克競賽(OlympiadBench)和多個數學競賽(MathVision、MathVerse)中大幅領先參數規模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同時也超越了閉源模型GPT-4o。在內部大模型競技場評估真實用戶體驗時,MiMo-VL-7B超越GPT-4o,成爲開源模型中的佼佼者。在實際應用場景中,該模型在複雜圖片推理和問答上表現卓越,在長達10多步的GUI操作上也展現出不錯的潛力,甚至能夠幫助用戶將小米SU7加購至心願單。

MiMo-VL-7B全面的視覺感知能力得益於高質量的預訓練數據以及創新的混合在線強化學習算法(MORL)。在多階段預訓練過程中,小米收集、清洗、合成了涵蓋圖片-文本對、視頻-文本對、GUI操作序列等多種數據類型的高質量預訓練多模態數據,總計2.4T tokens,並通過分階段調整不同類型數據的比例,強化了長程多模態推理的能力。混合在線強化學習則融合了文本推理、多模態感知+推理、RLHF等反饋信號,並通過在線強化學習算法穩定加速訓練,全方位提升了模型的推理、感知性能和用戶體驗。

相關鏈接:https://huggingface.co/XiaomiMiMo。