OpenBMB 團隊近日宣佈,新一代多模態大模型 MiniCPM-V4.0 正式開源發佈。該模型憑藉其輕量級架構和卓越性能,被譽爲“手機上的 GPT-4V”,有望爲移動設備上的 AI 應用帶來革命性的突破。
MiniCPM-V4.0的核心在於其精巧的設計。它基於 SigLIP2-400M 和 MiniCPM4-3B 構建,參數量僅爲 4.1B,卻在圖像、多圖像和視頻理解方面展現出強大的能力。這使得它不僅能輕鬆處理單張圖片,還能理解複雜的多圖關聯內容和視頻片段,爲用戶帶來更智能的交互體驗。
儘管參數量小,MiniCPM-V4.0的性能表現卻令人驚歎。在權威的 OpenCompass 八大主流評測基準上,該模型平均得分高達 69.0,超越了 GPT-4.1-mini 和 Qwen2.5-VL-3B 等一衆競爭對手。這一成績證明了其在視覺理解方面的強大實力,尤其是在處理複雜場景時,其準確性和深度分析能力令人印象深刻。
MiniCPM-V4.0的另一大亮點是其專爲移動設備進行的高度優化。在最新的 iPhone16Pro Max 上的實測顯示,該模型首次響應延遲不到 2秒,解碼速度超過 17token/秒,並且在運行時能有效控制設備發熱,確保了流暢穩定的用戶體驗。此外,它還能處理高併發請求,非常適合在手機、平板電腦等邊緣設備上的實際應用。
爲了降低開發者的使用門檻,OpenBMB 團隊提供了豐富的生態支持。MiniCPM-V4.0兼容 llama.cpp、Ollama 和 vllm_project 等主流框架,爲開發者提供了靈活多樣的部署選擇。團隊還專門開發了 iOS 應用,支持在 iPhone 和 iPad 上直接運行,併發布了詳細的 Cookbook,提供完整的教程和代碼示例。
MiniCPM-V4.0的發佈,爲多模態技術的應用開闢了新天地。其主要應用場景廣泛,包括:
圖像分析與多輪對話: 用戶可以上傳圖片,讓模型進行內容分析,並在此基礎上進行連續對話。
視頻理解: 能夠分析視頻內容,爲需要處理視頻信息的場景提供解決方案。
OCR 與數學推理: 模型具備識別圖片中文字和解決數學問題的能力,大大提升了其在實際工作和學習中的實用性。
MiniCPM-V4.0的開源,不僅展示了國內 AI 團隊在輕量級模型研發上的卓越實力,也爲全球開發者提供了探索移動端多模態技術的強大工具,爲 AI 普惠化邁出了堅實的一步。
Github:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4
ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4
CookBook:https://github.com/OpenSQZ/MiniCPM-V-CookBook