正文

小米開源最新多模態大模型 Xiaomi MiMo-VL-7B-2508

aibase

發布於AI新閒資訊

時間 :Aug 9, 2025

閱讀 :1分鐘

小米大模型團隊宣佈開源最新一代多模態大模型 Xiaomi MiMo-VL-7B-2508，包含 RL 與 SFT 兩個版本。

官方數據顯示，新版模型在學科推理、文檔理解、圖形界面定位及視頻理解四項核心能力上全面刷新紀錄，其中 MMMU 基準首次突破70分大關，ChartQA 升至94.4，ScreenSpot-v2達92.5，VideoMME 提升至70.8。

微信截圖_20250809102003.png

此番迭代通過優化強化學習穩定性與監督微調流程，使模型在內部 VLM Arena 評分從1093.9躍升至1131.2。

尤爲引人關注的是，用戶可在提問時通過“/no_think”指令自由切換“思考”與“非思考”模式:前者全程展示推理鏈條，控制成功率100%，後者直接生成答案，響應更快，成功率99.84%。

MiMo-VL-7B-RL-2508

推薦用戶在大多數情況下體驗使用該模型。
開源地址:https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

MiMo-VL-7B-SFT-2508

用戶可以根據實際需求，基於此模型進行SFT以及RL。相比於上一版SFT模型，該模型的RL穩定性更高。
開源地址:https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508

相關推薦

小米全新 AI 戰略：構建未來的智能基礎設施，重塑行業格局！

小米爲應對AI大模型趨勢，重組小愛同學技術團隊，推動AI深度融入各業務。這標誌着其AI策略從過往圍繞單一產品開發，轉向以大模型爲驅動核心，顯現前瞻佈局，有望構築未來競爭優勢。

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

NVIDIA推出統一音頻-文本大模型Audex，基於純文本MoE架構，採用單一Transformer，解決多模態模型音頻增強導致文本邏輯下降的難題，實現高效音頻理解與文本能力的平衡。

AI 視頻賽道格局重塑：谷歌 Gemini Omni Flash 登頂盲測榜首

谷歌DeepMind的文生視頻模型Gemini Omni Flash在權威盲測排行榜Video Arena中以1404Elo分躍居第一，彰顯谷歌多模態技術實力，也印證視頻生成領域正高速迭代。

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

商湯科技正祕密研發多模態大模型“U1Pro”，面向設計場景，由首席科學家林達華牽頭。該模型隸屬“日日新”家族，目標對標OpenAI的GPT-Image2，強調長程邏輯與思考能力，預計7月啓動內測並商用。

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase