小米のマルチモーダル大規模モデルチームは、最新のマルチモーダル大規模モデル「Xiaomi MiMo-VL-7B-2508」をオープンソース化したことを発表しました。このモデルにはRLとSFTの2つのバージョンが含まれています。

公式データによると、新バージョンのモデルは学問的推論、ドキュメント理解、グラフィックインターフェースの位置特定、ビデオ理解の4つの主要な能力において記録をすべて更新しました。その中で、MMMUベンチマークは初めて70点を超え、ChartQAは94.4に達し、ScreenSpot-v2は92.5、VideoMMEは70.8に上昇しました。

微信截图_20250809102003.png

今回のアップデートにより、強化学習の安定性と監督型微調整プロセスが最適化され、モデルの内部VLM Arenaスコアは1093.9から1131.2へと急騰しました。

特に注目すべきは、ユーザーが質問する際、「/no_think」というコマンドを使用して「思考モード」と「非思考モード」を自由に切り替えることができる点です。前者ではすべての推論プロセスを表示し、制御成功率は100%ですが、後者では直接答えを生成し、応答が速く、成功率は99.84%です。

  • MiMo-VL-7B-RL-2508

    • ほとんどの場合でこのモデルを体験することをお勧めします。

    • オープンソースのアドレス: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

  • MiMo-VL-7B-SFT-2508

    • ユーザーは実際のニーズに応じて、このモデルを基にSFTやRLを行うことができます。前のバージョンのSFTモデルと比較して、このモデルはより高いRLの安定性を持っています。

    • オープンソースのアドレス: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508