"MiniCPM-V2.6"的端側多模態人工智能模型,它僅有8B參數卻取得了20B以下單圖、多圖、視頻理解三項SOTA(State of the Art,即當前最佳水平)成績,顯著提升了端側AI的多模態能力,與GPT-4V水平全面對標。

微信截圖_20240807080523.png

以下是特性概括:

  1. 模型特點:MiniCPM-V2.6在端側實現了單圖、多圖和視頻理解等核心能力的全面超越,並首次將實時視頻理解、多圖聯合理解等功能帶到端側,更接近複雜的真實世界場景。

  2. 效率與性能:該模型以小博大,具有極高的像素密度(Token Density),比GPT-4o的單token編碼像素密度高兩倍,在端側設備上實現了極高的運行效率。

  3. 端側友好性:模型在量化後僅需6GB內存,端側推理速度高達每秒18個token,比上代模型快33%,並支持多種語言和推理框架。

  4. 功能拓展:MiniCPM-V2.6通過OCR能力,將單圖場景的高清圖像解析能力遷移到多圖和視頻場景,減少了視覺token的數量,節省了資源。

  5. 推理能力:它在多圖理解、複雜推理任務中展現出色能力,如調整自行車車座的步驟說明,以及對梗圖背後槽點的識別。

  6. 多圖ICL:模型支持上下文少樣本學習,能快速適應特定領域的任務,提高輸出穩定性。

  7. 高清視覺架構:通過統一的視覺架構,模型的OCR能力得以延續,實現從單圖到多圖及視頻的流暢拓展。

  8. 超低幻覺率:MiniCPM-V2.6在幻覺評測上表現優異,展示了其可信度。

MiniCPM-V2.6模型的推出,對端側AI的發展具有重要意義,它不僅提升了多模態處理能力,也展示了在資源受限的端側設備上實現高性能AI的可能性。

MiniCPM-V2.6開源地址:

GitHub: 

 https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

 llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列開源地址:

https://github.com/OpenBMB/MiniCPM