小米多模態大模型Xiaomi MiMo-VL開源

近日，小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒，在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B，在GUI Grounding任務上的表現更是可與專用模型相媲美，爲Agent時代的到來做好了準備。

微信截圖_20250530093852.png

MiMo-VL-7B在多模態推理任務上成績斐然，儘管參數規模僅爲7B，卻在奧林匹克競賽（OlympiadBench）和多個數學競賽(MathVision、MathVerse)中大幅領先參數規模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，同時也超越了閉源模型GPT-4o。在內部大模型競技場評估真實用戶體驗時，MiMo-VL-7B超越GPT-4o，成爲開源模型中的佼佼者。在實際應用場景中，該模型在複雜圖片推理和問答上表現卓越，在長達10多步的GUI操作上也展現出不錯的潛力，甚至能夠幫助用戶將小米SU7加購至心願單。

MiMo-VL-7B全面的視覺感知能力得益於高質量的預訓練數據以及創新的混合在線強化學習算法（MORL）。在多階段預訓練過程中，小米收集、清洗、合成了涵蓋圖片-文本對、視頻-文本對、GUI操作序列等多種數據類型的高質量預訓練多模態數據，總計2.4T tokens，並通過分階段調整不同類型數據的比例，強化了長程多模態推理的能力。混合在線強化學習則融合了文本推理、多模態感知+推理、RLHF等反饋信號，並通過在線強化學習算法穩定加速訓練，全方位提升了模型的推理、感知性能和用戶體驗。

相關鏈接：https://huggingface.co/XiaomiMiMo。

用一個密鑰，打開全球AI的能力邊界 ——我們正在打造面向未來的“全球AI聚合網關”

過去兩年AI技術快速發展，ChatGPT和多模態模型推動變革，企業和開發者積極應用AI提升生產力。但實際落地面臨四大挑戰：模型接口標準不統一、成本管理複雜、數據安全合規要求高、混合模型調用缺乏統一管理。這些問題制約了AI的規模化應用。

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

開源社區推出LLaVA-OneVision-1.5多模態模型，實現技術突破。該模型歷經兩年發展，從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架，核心提供開放高效的可復現訓練架構，支持用戶便捷構建高質量視覺語言模型，訓練過程分三個階段推進。

小米多模態大模型Xiaomi MiMo-VL開源

相關推薦

用一個密鑰，打開全球AI的能力邊界 ——我們正在打造面向未來的“全球AI聚合網關”

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

蘋果即將在2025年國際計算機視覺大會亮相

馬斯克挖角 NVIDIA 核心團隊，xAI 加速 “世界模型” 研發

阿里巴巴成立全新機器人AI團隊，搶灘智能時代浪潮

小米多模態大模型Xiaomi MiMo-VL開源

相關推薦

用一個密鑰，打開全球AI的能力邊界 ——我們正在打造面向未來的“全球AI聚合網關”

​全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

蘋果即將在2025年國際計算機視覺大會亮相

馬斯克挖角 NVIDIA 核心團隊，xAI 加速 “世界模型” 研發

阿里巴巴成立全新機器人AI團隊，搶灘智能時代浪潮

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場