最近、オープンソースAIコミュニティでは重要な進展があり、端末向けのマルチモーダル大規模言語モデル「MiniCPM-V4.5」が正式にリリースされました。このモデルは8億パラメータ規模で、スマートフォンやタブレットでの効率的な動作を実現し、モバイル向けAIアプリケーションに新たな可能性を開拓しました。

技術的特徴と性能

MiniCPM-V4.5は軽量設計のアプローチを採用しており、端末向けデバイスに最適化されています。開発チームが公開したテストデータによると、このモデルはOpenCompass総合評価で77.2点を獲得し、同種のオープンソースモデルの中で突出した成績を収めています。モデルは単一画像の理解、複数画像の推論、動画分析などの多様なタスクに対応しています。

モバイルデバイスへの配置において、MiniCPM-V4.5はiPhone16Pro Maxでの最初のトークン遅延は約2秒で、デコード速度は1秒あたり17トークン以上です。3D-Resampler技術により、動画データの圧縮率が96%にまで向上し、6フレームの動画コンテンツを64トークンで処理可能で、最高で10FPSのリアルタイム動画理解を実現しています。

image.png

光学文字認識(OCR)はこのモデルの重点的な最適化方向の一つです。LLaVA-UHDアーキテクチャに基づき、モデルは最大180万ピクセルの高解像度画像処理をサポートし、OCRBenchテストでは85.7%の正確性を達成しています。また、英語、中国語、ドイツ語、フランス語など30以上の言語をサポートしています。

革新メカニズムと技術構造

MiniCPM-V4.5は制御可能な混合思考メカニズムを導入しており、ユーザーはパラメータ設定を通じて高速応答モードと深層推論モードの間で切り替えることができます。高速モードは通常の質問応答タスクに適しており、深層モードは段階的な推論を通じて複雑な問題を処理します。

モデルはRLAIF-VおよびVisCPM技術に基づいてトレーニングされ、幻覚現象の減少に成功しました。開発チームはこのトレーニング方法により、モデルの応答の正確性と信頼性が向上したと述べています。

オープンソースエコシステムとデプロイ支援

MiniCPM-V4.5はApache-2.0ライセンスでリリースされており、学術研究には無料で使用可能です。商業用途の場合、簡単な登録手続きが必要です。モデルはllama.cpp、Ollama、vLLM、SGLangなどのさまざまな推論フレームワークをサポートしており、16種類の量子化形式を提供し、異なるハードウェア構成に適応しています。

開発チームはiOS用のアプリケーションもリリースしており、Appleデバイス上で簡単に体験できます。開発者はHugging FaceやGitHubからモデルのコードとドキュメントを取得でき、Gradioを使用してローカルWebインターフェースを構築することも可能です。NVIDIA GPU上での推論加速にも対応しています。

応用の展望と限界

モバイル端末に最適化されたマルチモーダルモデルとして、MiniCPM-V4.5はプライバシーが重要でオフライン環境での使用が必要な場面で応用価値があります。モデルの軽量設計により、AI機能のデプロイのハードルが低下し、個人ユーザーと開発者にとって新しい選択肢を提供しています。

注意すべき点は、パラメータの規模の制限により、このモデルは極めて複雑なタスクを処理する際に性能の限界がある可能性があることです。実際のアプリケーションでは、具体的なニーズに応じて適切なモデルの選択を行う必要があります。開発チームは、モデルが出力する内容はトレーニングデータに基づいていることを警告しており、ユーザーは使用が規則に適合していることを確認し、関連責任を負う必要があります。

業界への影響

MiniCPM-V4.5のリリースは、オープンソースAIコミュニティにおける端末側の配置に関する技術探求を示しています。モバイルデバイスの計算能力が継続的に向上する中、このような軽量なマルチモーダルモデルは、AIアプリケーションの普及に新たな技術的道筋を提供する可能性があります。

このプロジェクトのオープンソース特性は、研究者や開発者にとって学習と改善の基盤を提供し、端末側AI技術のさらなる発展を促進することが期待されます。

プロジェクトのアドレス:https://github.com/OpenBMB/MiniCPM-V