FaceWall Intelligence(フェースウォール・インテリジェンス)は、清华大学NLP研究室と協力して、最新のエッジ側マルチモーダル大規模モデル「MiniCPM-V4.5」を正式に発表しました。これにより、エッジAI技術は新たな高みへと進化しました。

image.png

MiniCPMシリーズの最新作として、このモデルは優れた性能、効率的な展開能力、および広範な応用領域を持ち、エッジ側マルチモーダルモデルに対する業界の期待を再び上回りました。以下では、AIbaseがこの画期的な技術について詳しく解説します。

image.png

技術的突破:パラメータ数が少ないにもかかわらず高性能

MiniCPM-V4.5は、SigLIP2-400Mの視覚モジュールとMiniCPM4-3Bの言語モデルに基づいて構築されており、総パラメータ数はわずか4億1000万です。しかし、複数のベンチマークテストで驚異的な結果を示しています。公式データによると、MiniCPM-V4.5はOpenCompassの総合評価で69.0点

マルチモーダル機能の向上:視覚、テキスト、動画のすべてに対応

MiniCPM-V4.5は、単一画像、複数画像、および動画の理解をサポートし、高解像度画像処理、OCR(光学文字認識)、多言語対応などにおいて優れた性能を発揮します。

  • 視覚能力: 1344x1344ピクセル(180万ピクセル)までの画像を処理でき、任意の縦横比をサポートします。OCRBenchでのOCR性能は、GPT-4oやGemini1.5Proなどの主流の専有モデルを上回ります。
  • 複数画像と動画の理解: Mantis-Eval、BLINK、Video-MMEなどのベンチマークテストにおいて、MiniCPM-V4.5は複数画像の推論や動画の時空間情報処理の能力が非常に高く、複雑な状況下でのコンテンツ分析に適しています。
  • 多言語対応: MiniCPMシリーズの多言語の利点を継承し、英語、中国語、ドイツ語、フランス語、イタリア語、韓国語などを含む30以上の言語をサポートし、グローバルユーザーにスムーズなマルチモーダルインタラクション体験を提供します。

効率的な展開:エッジデバイス向けに最適化

MiniCPM-V4.5は、効率性において模範的です。その高いトークン密度(180万ピクセルの画像を処理するのに640トークンしか必要なく、多くのモデルよりも75%少ない)により、推論速度、最初のトークン遅延、メモリ使用量、電力消費において顕著な改善が見られます。テスト結果によると、iPhone16 Pro Maxで最初のトークン遅延は2秒未満で、デコード速度は17トークン/秒以上であり、発熱はほとんどありません。これにより、スマートフォンやタブレットなどのエッジデバイスへの容易な導入が可能になり、モバイル、オフライン、プライバシー保護といったシナリオに対応できます。

また、MiniCPM-V4.5は、llama.cpp、Ollama、vLLM、SGLangなどの多様な展開方法をサポートし、iOSアプリケーションのサポートも提供しており、開発者の使用ハードルを大幅に低下させています。

オープンエコシステム:学術および商業革新を促進

FaceWall Intelligenceは、オープンソースコードの伝統を引き続き維持しており、MiniCPM-V4.5はApache2.0ライセンスに従って公開されています。学術研究者には完全にオープンされ、商用ユーザーは簡単な登録だけで無料で利用可能です。この取り組みにより、マルチモーダルAIの参入障壁がさらに低下し、学術研究と商業応用の双方を促進しています。現在までに、MiniCPMシリーズはGitHubとHuggingFaceで合計100万回以上のダウンロード

MiniCPM-V4.5のリリースは、FaceWall Intelligenceがマルチモーダル大規模モデル分野で先頭を走っていることを示すだけでなく、エッジAIの普及への方向性を示しています。リアルタイムのビデオ分析から知能文書処理、そして多言語相互作用に至るまで、MiniCPM-V4.5の広範な適用可能性は教育、医療、コンテンツ制作などの業界に新たな可能性をもたらしています。

AIbaseは、エッジ側計算能力の急速な向上とモデル効率の継続的な最適化により、MiniCPM-V4.5がエッジデバイス上でクラウドAIと同等の「常態」となることを期待しています。

プロジェクト:https://huggingface.co/openbmb/MiniCPM-V-4_5