小米は、新しいマルチモーダル大規模モデル「Xiaomi MiMo-VL-7B-2508」のオープンソース版を発表し、同時にSFTおよびRLの2つのモデルバージョンもリリースしました。今回のアップグレードにより、出力モードが最適化され、RLトレーニングの安定性が向上し、複数の能力評価で顕著な進歩を遂げました。また、ユーザーは「思考モード」と「非思考モード」の間で柔軟に切り替えることができ、さまざまなシナリオに応じた使用が可能です。

今年5月にリリースされたMiMo-VL-7B-RLと比較して、新バージョンはいくつかの権威あるベンチマークで突破を遂げています:

学問的推論テスト MMMU: 66.7から70.6へと上昇し、初めて70点を突破

ドキュメント理解テスト ChartQA: 91.7から94.4へと上昇

GUI定位テスト ScreenSpot-v2: 90.5から92.5へと上昇

動画理解テスト VideoMME: 67.4から70.8へと上昇

インタラクティブ体験において、新バージョンは自主制御可能な思考モード切り替え機能を導入しました。デフォルトの「思考モード」では完全な推論プロセスが表示され、パフォーマンスがより包括的で、コントロール成功確率は100%です。一方、「非思考モード」では推論ステップをスキップし、応答速度が速く、コントロール成功確率は99.84%であり、リアルタイム性が求められるタスクに適しています。