小米再出AI黑馬！開源多模態大模型 MiMo-VL-7B-2508 性能大幅躍升，支持思考模式切換

小米宣佈開源全新版本的多模態大模型——Xiaomi MiMo-VL-7B-2508，並同步推出 SFT 和 RL 兩個模型版本。此次升級不僅優化了輸出模式，還提升了 RL 訓練的穩定性，在多項能力評測中取得了顯著進步。同時，用戶還可以在“思考模式”和“非思考模式”之間靈活切換，以適應不同場景需求。

與今年5月發佈的 MiMo-VL-7B-RL 相比，新版本在多項權威 benchmark 上實現了突破:

學科推理測試 MMMU:從66.7提升至70.6，首次突破70分

文檔理解測試 ChartQA:從91.7提升至94.4

GUI 定位測試 ScreenSpot-v2:從90.5提升至92.5

視頻理解測試 VideoMME:從67.4提升至70.8

在交互體驗上，新版本引入了自主控制的思考模式切換功能。默認的“思考模式”會展示完整推理過程，性能更全面且控制成功率達100%;而“非思考模式”則跳過推理環節，響應速度更快，控制成功率爲99.84%，適合對實時性要求高的任務。

根據小米內部 VLM Arena 評分，新版 MiMo-VL-7B-RL-2508獲得了1131.2分，明顯高於上一代的1093.9分。評測結果顯示，該模型在多數基準測試中全面超越前代版本，即便在非思考模式下，也能在感知類任務中保持出色表現。與同類支持思考功能的多模態開源模型相比，MiMo-VL-7B-RL-2508依舊處於領先地位。

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

小米再出AI黑馬！開源多模態大模型 MiMo-VL-7B-2508 性能大幅躍升，支持思考模式切換

相關推薦

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

AI 視頻賽道格局重塑：谷歌 Gemini Omni Flash 登頂盲測榜首

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

先理解再動手！字節開源統一框架 Bernini，讓 AI 視頻編輯告別“碰運氣”