面壁智能(FaceWall Intelligence)攜手清華大學NLP實驗室,正式發佈其最新端側多模態大模型 MiniCPM-V4.5,標誌着邊緣AI技術邁向全新高度。

作爲MiniCPM系列的最新力作,該模型以卓越的性能、高效的部署能力和廣泛的應用場景,再次刷新了業界對端側多模態模型的期待。以下,AIbase爲您詳細解析這一突破性技術。

技術突破:更小參數,更強性能
MiniCPM-V4.5基於SigLIP2-400M視覺模塊與MiniCPM4-3B語言模型構建,總參數量僅爲 4.1億,卻在多項基準測試中展現出驚豔表現。據官方數據,MiniCPM-V4.5在OpenCompass綜合評估中取得 69.0的平均得分,超越了GPT-4.1-mini(20250414版本,64.5分)以及Qwen2.5-VL-3B-Instruct(64.5分),成爲端側多模態模型的性能標杆。相比前代MiniCPM-V2.6(8.1億參數,65.2分),新模型在參數量大幅減少的同時,性能提升顯著,充分體現了面壁智能在模型壓縮與優化上的深厚技術積累。
多模態能力升級:視覺、文本、視頻全能
MiniCPM-V4.5支持 單圖、多圖及視頻理解,並在高分辨率圖像處理、OCR(光學字符識別)以及多語言支持方面表現出色。
- 視覺能力:模型可處理高達 180萬像素(1344x1344) 的圖像,支持任意寬高比,OCR性能在OCRBench上超越GPT-4o、Gemini1.5Pro等主流專有模型。
- 多圖與視頻理解:在Mantis-Eval、BLINK和Video-MME等基準測試中,MiniCPM-V4.5展現出領先的多圖推理和視頻時空信息處理能力,適用於複雜場景下的內容分析。
- 多語言支持:繼承MiniCPM系列的多語言優勢,模型支持英語、中文、德語、法語、意大利語、韓語等 30多種語言,爲全球用戶提供無縫的多模態交互體驗。
高效部署:專爲邊緣設備優化
MiniCPM-V4.5在效率方面堪稱典範。得益於其 高 token 密度(處理180萬像素圖像僅需640個視覺token,較多數模型減少75%),模型在推理速度、首token延遲、內存佔用和功耗上均有顯著優化。測試顯示,MiniCPM-V4.5在 iPhone16Pro Max 上實現 首token延遲低於2秒,解碼速度超過 17token/s,無明顯發熱問題。這使得模型能夠輕鬆部署於智能手機、平板電腦等邊緣設備,滿足移動、離線和隱私保護場景的需求。
此外,MiniCPM-V4.5支持多種部署方式,包括 llama.cpp、Ollama、vLLM 和 SGLang,並提供iOS應用支持,極大降低了開發者的使用門檻。
開放生態:推動學術與商業創新
面壁智能延續其開放源代碼的傳統,MiniCPM-V4.5遵循 Apache2.0許可證,向學術研究人員完全開源,商業用戶通過簡單註冊即可免費使用。這一舉措進一步降低了多模態AI的進入壁壘,推動了學術研究與商業應用的雙向發展。截至目前,MiniCPM系列已在GitHub和HuggingFace上累計獲得 超百萬次下載,成爲邊緣AI領域的標杆模型。
MiniCPM-V4.5的發佈不僅展示了面壁智能在多模態大模型領域的領先地位,也爲邊緣AI的普及化應用指明瞭方向。從實時視頻分析到智能文檔處理,再到多語言交互,MiniCPM-V4.5的廣泛適用性爲教育、醫療、內容創作等行業帶來了新的可能性。
AIbase認爲,隨着端側計算能力的快速提升和模型效率的持續優化,MiniCPM-V4.5有望成爲邊緣設備上媲美雲端AI的“新常態”。
項目:https://huggingface.co/openbmb/MiniCPM-V-4_5
