阿里國際數字貿易集團AI團隊發佈Ovis2.5:經濟型視覺推理模型新突破

阿里國際數字貿易集團（AIDC）的AI團隊(AIDC-AI)近日發佈全新多模態大語言模型Ovis2.5，提供9B和2B兩種參數規模版本。該模型定位爲經濟型視覺推理解決方案，在其規模內展現出卓越性能，爲多模態AI應用樹立了新標杆。

Ovis2.5的核心特性

1. **原生分辨率感知**:Ovis2.5採用NaViT視覺編碼器，無需損耗平鋪即可保留圖像的精細細節和全局結構，確保高質量的視覺處理能力。

2. **深度推理能力**:模型支持可選的“思考模式”，可能部分複用了阿里Qwen3的技術特性。除了線性思維鏈（CoT）推理外，Ovis2.5還能進行自我檢查和修訂，並支持可配置的思考預算，提升問題解決的精準度。

3. **圖表與文檔OCR領先**:在9B和2B規模上，Ovis2.5在複雜圖表分析、文檔理解（包括表格和表單）以及光學字符識別(OCR)領域達到業內領先水平，爲實際應用場景提供強大支持。

4. **廣泛任務覆蓋**:該模型在圖像推理、視頻理解和視覺定位基準測試中表現出色，展現了強大的通用多模態能力。

Ovis2.5的發佈彰顯了AIDC-AI在多模態AI技術領域的持續創新。通過在緊湊模型規模內實現高性能，Ovis2.5爲開發者和企業提供了一種高效且易於部署的解決方案，尤其適用於需要視覺與文本推理結合的場景。模型已在GitHub和Hugging Face等平臺開源，進一步推動全球AI社區的協作與創新。

此次發佈是AIDC-AI在Ovis系列模型基礎上取得的又一重要進展，爲多模態大語言模型的發展注入了新的活力。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

阿里國際數字貿易集團AI團隊發佈Ovis2.5:經濟型視覺推理模型新突破

相關推薦

抖音升級未成年人模式引擎，把多模態大語言模型請進了適齡推薦

小紅書開源 BigMac：把多模態訓練的顯存與速度，從二選一中解放出來

字節跳動聯合港科大發布MMProLong：長文檔LMM訓練問答對效率遠超OCR轉錄

騰訊混元等聯合發佈首個古文字OCR評測基準 Chronicles-OCR

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案