魔搭ModelScopeコミュニティは、面壁小鋼砲の新世代マルチモーダルモデルMiniCPM-V4.0が正式にオープンソース化されたことを発表しました。4Bパラメータの規模で、OpenCompass、OCRBench、MathVistaなどのベンチマークで同クラスで最良の成績を収め、スマートフォンなどのモバイルデバイスでも安定してスムーズに動作することを実証しました。また、公式には推論およびデプロイメントツールであるMiniCPM-V CookBookもオープンソース化し、開発者がさまざまなニーズ、シナリオ、デバイスに対応して簡単に軽量なデプロイメントを実現できるようにしています。

MiniCPM-V4.0のオープンソース化は、マルチモーダルモデルがエッジ側アプリケーション領域で重要な一歩を踏み出したことを示しています。スマートフォンで動作するのに最も適したモデルサイズとして、MiniCPM-V4.0は4Bパラメータで安定した動作と高速な反応を実現し、長時間連続使用しても過熱や遅延が起こらないという特徴があります。現在、MiniCPM-V4.0のローカルデプロイメントをサポートするiOSアプリがオープンソース化されており、開発者はCookBookからダウンロードして使用できます。

微信截图_20250807093312.png

性能面では、MiniCPM-V4.0は4Bパラメータ規模のマルチモーダル能力において同クラスで最良のレベルに達しています。OpenCompass、OCRBench、MathVista、MMVet、MMBench V1.1、MMStar、AI2D、HallusionBenchなどの評価基準でのテスト結果によると、MiniCPM-V4.0の総合性能は同クラスで最高です。特にOpenCompassの評価では、MiniCPM-V4.0の総合性能はQwen2.5-VL3BモデルやInternVL2.54Bモデルを上回り、GPT-4.1-miniやClaude3.5Sonnetと比較可能となっています。前世代のMiniCPM-V2.6の8Bモデルと比べて、MiniCPM-V4.0はパラメータ数を半分にしつつ、マルチモーダル能力が大幅に向上しています。

MiniCPM-V4.0がスマートフォンやPCなどのエッジデバイス上でリアルタイムの動画理解や画像理解などのタスクをスムーズかつスムーズに処理できるのは、その優れた性能だけでなく、独自のモデル構造設計にも起因しています。この設計により、同じサイズのモデルの中で最も速い最初の応答時間と低いVRAM使用量を実現しました。Apple M4Metalでのテスト結果によると、通常の動作時におけるMiniCPM-V4.0のVRAM使用量は3.33GBであり、Qwen2.5-VL3BやGemma3-4Bなどのモデルよりも低くなっています。画像理解のテストでは、ANE + Metalの補助的な加速により、最初の応答時間が大幅に短縮され、入力画像の解像度が高くなるにつれて最初の応答時間の速さの利点がさらに顕著になります。

また、研究チームは2台の4090GPUを使ってモデルの同時処理量とスループットをテストしました。実験結果によると、計算リソースが許容可能な範囲内で、同時に処理するユーザー数が増えるにつれて、MiniCPM-V4.0モデルの総スループットの優位性がより明確になりました。例えば、256の同時ユーザー要求の場合、MiniCPM-V4.0のスループットは13856tokens/sに達し、これはQwen2.5-VLの7153tokens/sやGemma3の7607tokens/sを大きく上回っています。

Github: 🔗 https://github.com/OpenBMB/MiniCPM-o

Hugging Face: 🔗 https://huggingface.co/openbmb/MiniCPM-V-4

ModelScope: 🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4

CookBook: 🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook