4月11日,OpenGVLab開源發佈了InternVL3系列模型,這標誌着多模態大型語言模型(MLLM)領域迎來了新的里程碑。InternVL3系列包含從1B到78B共7個尺寸的模型,能夠同時處理文字、圖片、視頻等多種信息,展現出卓越的整體性能。

與前代產品InternVL2.5相比,InternVL3在多模態感知和推理能力上有了顯著提升,其多模態能力進一步擴展至工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域。此外,得益於原生多模態預訓練,InternVL3系列的整體文本性能甚至優於Qwen2.5系列,後者是InternVL3中語言組件的初始化部分。

微信截圖_20250414083602.png

InternVL3系列模型的架構延續了“ViT-MLP-LLM”範式,用隨機初始化的MLP projector將全新增量預訓練的InternViT與各種預訓練的LLM(包括InternLM3和Qwen2.5)集成。

在模型推理方面,InternVL3應用了像素反混洗操作,將視覺標記數量減少到原來的四分之一,並採用動態分辨率策略,將圖像劃分爲448×448像素的圖塊。從InternVL2.0開始,關鍵區別在於額外引入了對多圖像和視頻數據的支持。InternVL3還集成了可變視覺位置編碼(V2PE),爲視覺標記提供了更小、更靈活的位置增量,從而展現出更出色的長上下文理解能力。

在模型部署方面,InternVL3可以通過LMDeploy的api_server部署成OpenAI兼容API,用戶只需安裝lmdeploy>=0.7.3,然後使用相關命令即可完成部署。模型調用時,用戶可以通過OpenAI的API接口,指定模型名稱、消息內容等參數,獲取模型的響應。

體驗地址:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e