近日,阿里國際正式發佈了其新一代多模態大模型 Ovis2.5,並對外開源。這款模型專注於原生分辨率視覺感知、深度推理以及高性價比的場景設計,旨在進一步提升人工智能的應用能力。Ovis2.5在主流多模態評測套件 OpenCompass 上的綜合得分相比前一版本 Ovis2有了顯著提升,繼續在同類開源模型中保持 SOTA(最先進技術)水平。

此次發佈的 Ovis2.5包含兩個不同參數規模的版本。首先是 Ovis2.5-9B,這一版本在 OpenCompass 評測中獲得了78.3的高分,超越了許多參數量更大的模型,並在40B 以下參數規模的開源模型中名列第一。其次,Ovis2.5-2B 的綜合得分爲73.9,延續了 Ovis 系列 “小身板、大能量” 的理念,特別適合端側及資源受限的應用場景。
在 Ovis2.5的整體架構上,官方表示進行了系統性創新,主要體現在模型架構、訓練策略與數據工程三個方面。模型架構方面,Ovis2.5延續了系列創新的結構化嵌入對齊設計,由三大核心組件構成:動態分辨率的視覺特徵提取、視覺詞表模塊實現視覺與文本的結構對齊,以及以 Qwen3爲基礎的強大語言處理能力。
在訓練策略上,Ovis2.5採用了更精細的五階段訓練方案,包括基礎的視覺預訓練、多模態預訓練以及大規模的指令微調等多個步驟。同時,通過 DPO 和 GRPO 等算法加強偏好對齊和推理能力,有效提升了模型的性能。此外,模型的訓練速度實現了3到4倍的端到端加速。
數據工程方面,Ovis2.5的數據量相比 Ovis2增加了50%,重點聚焦於視覺推理、圖表、OCR(光學字符識別)和 Grounding 等關鍵領域。特別是合成了大量與 Qwen3深度適配的 “思考” 數據,極大地激發了模型的反思與推理潛能。
Ovis2.5的代碼和模型均已在 GitHub 和 Hugging Face 等平臺上線,用戶可以通過這些平臺獲取相關資源,進一步探索其應用潛力。
代碼:https://github.com/AIDC-AI/Ovis
模型: https://huggingface.co/AIDC-AI/
劃重點:
🌟 Ovis2.5在 OpenCompass 評測中取得78.3的綜合得分,繼續保持 SOTA 水平。
🔧 包含兩個版本,Ovis2.5-9B 適合大規模應用,Ovis2.5-2B 則專注於資源受限場景。
📊 採用創新架構和訓練策略,數據量增加50%,聚焦視覺推理等關鍵領域。
