魔搭ModelScope社區宣佈,面壁小鋼炮新一代多模態模型MiniCPM-V4.0正式開源。憑藉4B參數量,該模型在OpenCompass、OCRBench、MathVista等多個榜單上取得了同級SOTA(State of the Art,即當前最佳)成績,並且實現了在手機等移動設備上的穩定、流暢運行。同時,官方還開源了推理部署工具MiniCPM-V CookBook,幫助開發者在不同需求、不同場景、不同設備下實現開箱即用的輕量、簡易部署。

MiniCPM-V4.0的開源,標誌着多模態模型在端側應用領域邁出了重要一步。作爲最適合在手機上運行的模型尺寸,MiniCPM-V4.0以4B參數量實現了穩定運行和快速響應,長時間連續使用也不會出現發熱或卡頓現象。目前,支持MiniCPM-V4.0本地部署的iOS App已開源,開發者可以在CookBook中下載使用。

微信截圖_20250807093312.png

在性能方面,MiniCPM-V4.0在4B參數量級的多模態能力上達到了同級SOTA級別。在OpenCompass、OCRBench、MathVista、MMVet、MMBench V1.1、MMStar、AI2D、HallusionBench等評測基準測試中,MiniCPM-V4.0的綜合性能均爲同級最高。特別是在OpenCompass測評中,MiniCPM-V4.0的綜合性能超過了Qwen2.5-VL3B模型和InternVL2.54B模型,甚至可比肩GPT-4.1-mini、Claude3.5Sonnet。與上一代MiniCPM-V2.6的8B模型相比,MiniCPM-V4.0在模型參數減半的同時,多模態能力實現了顯著提升。

MiniCPM-V4.0之所以能在手機、PC等端側設備上絲滑、流暢地完成實時視頻理解、圖像理解等任務,除了其出色的效果外,還得益於獨特的模型結構設計。該設計實現了同尺寸模型下最快的首響時間與更低的顯存佔用。經在Apple M4Metal上測試,正常運行MiniCPM-V4.0模型時,顯存佔用僅爲3.33GB,低於Qwen2.5-VL3B、Gemma3-4B等模型。在圖片理解測試中,MiniCPM-V4.0藉助ANE + Metal輔助加速,首次響應時間大幅縮短,隨着輸入圖片分辨率的提高,首響時間快的優勢更爲明顯。

此外,研究團隊還利用2張4090GPU對模型併發量、吞吐量進行了測試。實驗結果顯示,在算力資源可支持的範圍內,隨着併發量的增加,MiniCPM-V4.0模型的總吞吐量優勢更爲明顯。例如,在256併發用戶需求下,MiniCPM-V4.0的吞吐量高達13856tokens/s,遠超Qwen2.5-VL的7153tokens/s、Gemma3的7607tokens/s。

Github: 🔗 https://github.com/OpenBMB/MiniCPM-o

Hugging Face: 🔗 https://huggingface.co/openbmb/MiniCPM-V-4

ModelScope: 🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4

CookBook: 🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook