5月11日、面壁インテリジェンスは清华大学およびOpenBMBオープンソースコミュニティと共同で、新世代のエッジ側マルチモーダル大規模モデル「MiniCPM-V4.6」を正式に公開しました。パラメータ数がわずか13億の「軽量型」モデルながら、極限の知能密度とクロスプラットフォーム対応能力により、より大きなパラメータを持つモデルの性能の限界に挑戦し、エッジ側AIの実用化を「加速」させました。

一、性能の頂点:13億パラメータでの「越級表現」
MiniCPM-V4.6はInstruct版とThinking版の2つのバージョンをリリースしており、さまざまな評価で同サイズのモデルでは到達できない推論・理解能力を示しています:
世界をリード: Artificial Analysis(AA)ランキングにおいて、MiniCPM-V4.6は13点という優れた成績を収め、同サイズの競合製品(例:アリババのQwen3.5-0.8BやグーグルのGemma4-E2B-it)を大幅に上回り、さらに大きなパラメータを持つQwen3.5-2Bに迫る性能を発揮しました。これは10億パラメータ級モデルの中でも性能の基準となっています。
高度な能力: 一般的な画像・文章理解、複雑なSTEM数理推論、そして非常に難しいドキュメントOCRや動画時系列理解においても、モデルは非常に高い知能レベルを示しています。特に、多画像推論と幻覚抑制において、Thinking版は優れた性能を発揮しています。
二、効率の革命:エッジ側の「知能密度」の極致
エッジ側でのデプロイにおける「メモリの不安」を解決するために、MiniCPM-V4.6は推論速度とリソース使用量に対して深い最適化を行いました:
高速な門檻: 実行メモリの要件が6GBまで圧縮され、主流のスマートフォン、PC、スマート家電などでもスムーズに動作します。
推論効率: vLLMに基づく推論スループットは競合製品の1.5倍です。エッジ側で3136²の超高解像度の大画像を処理する際には、初音遅延が75.7ms
スループット能力: 1枚のカードで7013トークン/秒のテキスト生成と、54.79枚/秒の1344²画像処理が可能です。効率性は驚くべきものです。
三、技術の硬核:LLaVA-UHD v4によるコスト削減
モデルが「軽装で進む」ことができたのは、面壁インテリジェンスと清华大学が共同で開発したLLaVA-UHD v4技術の恩恵に他なりません:
エンコードの再構築: ViT画像エンコードと浅層圧縮モジュールを再構築することで、画像エンコードのコストが50%55.8%
混合圧縮メカニズム: 4倍/16倍の混合トークン圧縮をサポートし、モデルが「パフォーマンス優先」と「速度優先」の間で柔軟に切り替えることが可能になります。この技術は以前から快手の推薦大規模モデルOneRecで検証されており、膨大なトラフィック要求を支えています。
四、エコシステムの実装:研究室から産業の第一線へ
MiniCPM-V4.6のオープンソースは技術的な勝利だけでなく、エコシステムの勝利でもあります:
開発のしやすさ: ms-swift、LLaMA-Factoryなどの微調整フレームワークに深く適合し、開発者は1枚のRTX4090グラフィックカードで完全な微調整が可能です。
全プラットフォーム対応: vLLM、Ollamaなどの主要フレームワークをサポートし、iOS、Android、HarmonyOSをカバーするテスト版を提供し、AIがより多くのハードウェア端末に届くことを可能にします。
実装支援: 現在、このシリーズは自動車、PC、スマートホーム、工業検査など複数の分野で導入されており、レノボ、吉利、上汽大众、小米、OPPOなど業界のトップ企業がパートナーとして参画しています。
MiniCPM-V4.6の全面的なオープンソース化により、エッジ側マルチモーダル大規模モデルの障壁は完全に取り除かれました。今後、AIは単にクラウドの計算力に依存するだけでなく、真にすべてのスマート端末に組み込まれ、個人の日常生活中で欠かせない「知的脳」として機能するようになります。
