8月31日,上海人工智能實驗室(上海AI實驗室)宣佈開源發佈多模態大模型書生·萬象InternVL3.5。該模型通過創新的級聯式強化學習(Cascade RL)、動態視覺分辨率路由與解耦部署架構,實現了推理能力、部署效率與通用能力的全面升級。InternVL3.5開源了從1B到241B各尺寸參數的全量級版本,刷新了開源模型性能標杆,在多種任務上達到領先水平。
InternVL3.5的旗艦模型InternVL3.5-241B-A28B在多學科推理基準MMMU中獲得開源模型最高分77.7分,多模態通用感知基準MMStar和OCRBench分別取得77.9分和90.7分,超越GPT-5(75.7分/80.7分)。文本推理基準AIME25和MMLU-Pro分別達到75.6和81.3分,全面領先現有開源多模態大模型。依託級聯式強化學習框架,全系列模型推理性能相比上一代平均提升16.0分。其中,InternVL3.5-241B-A28B綜合推理性能達到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在數學推理、邏輯推理等複雜任務中表現突出。

藉助創新的視覺分辨率路由(ViR)與解耦部署框架(DvD),38B模型在896分辨率下的響應速度大幅提升,單次推理延遲由369ms縮短至91ms(提升約4倍)。與此同時,輕量化的InternVL3.5-Flash在將視覺序列長度減少50%的情況下,仍能保持接近100%的性能水平。
InternVL3.5還加強了GUI智能體、具身智能體、SVG圖形理解與生成等智能體核心能力,在ScreenSpot GUI定位(92.9分)、VSI-Bench空間推理(69.5分)、SGP-Bench矢量圖理解(70.6分)等任務中超越主流開源模型。
InternVL3.5提供10億至2410億參數共九種尺寸模型,覆蓋不同資源需求場景,包含稠密模型和專家混合模型(MoE),是首個支持GPT-OSS語言模型基座的開源多模態大模型。官方提供了使用`transformers`運行`InternVL3.5-8B`的示例代碼,模型最多可以部署在單張A100GPU上,而38B模型需要2張A100GPU,235B模型則需要8張A100GPU。
ms-swift已經支持對InternVL3.5系列模型進行訓練。ms-swift是魔搭社區官方提供的大模型與多模態大模型訓練部署框架。用戶可以將數據準備成特定格式進行自定義數據集微調。訓練完成後,可以使用相應命令進行推理,並將模型推送到ModelScope。
InternVL3.5的發佈標誌着多模態大模型技術的又一重要進展,爲研究人員和開發者提供了強大的工具,推動了多模態人工智能的發展。
代碼開源/模型使用方法:
https://github.com/OpenGVLab/InternVL
模型合集:
https://www.modelscope.cn/collections/InternVL35-Full-3871e58bf21349
在線體驗:
https://chat.intern-ai.org.cn/
