阿里國際數字貿易集團(AIDC)的AI團隊(AIDC-AI)近日發佈全新多模態大語言模型Ovis2.5,提供9B和2B兩種參數規模版本。該模型定位爲經濟型視覺推理解決方案,在其規模內展現出卓越性能,爲多模態AI應用樹立了新標杆。
Ovis2.5的核心特性
1. **原生分辨率感知**:Ovis2.5採用NaViT視覺編碼器,無需損耗平鋪即可保留圖像的精細細節和全局結構,確保高質量的視覺處理能力。
2. **深度推理能力**:模型支持可選的“思考模式”,可能部分複用了阿里Qwen3的技術特性。除了線性思維鏈(CoT)推理外,Ovis2.5還能進行自我檢查和修訂,並支持可配置的思考預算,提升問題解決的精準度。
3. **圖表與文檔OCR領先**:在9B和2B規模上,Ovis2.5在複雜圖表分析、文檔理解(包括表格和表單)以及光學字符識別(OCR)領域達到業內領先水平,爲實際應用場景提供強大支持。
4. **廣泛任務覆蓋**:該模型在圖像推理、視頻理解和視覺定位基準測試中表現出色,展現了強大的通用多模態能力。
Ovis2.5的發佈彰顯了AIDC-AI在多模態AI技術領域的持續創新。通過在緊湊模型規模內實現高性能,Ovis2.5爲開發者和企業提供了一種高效且易於部署的解決方案,尤其適用於需要視覺與文本推理結合的場景。模型已在GitHub和Hugging Face等平臺開源,進一步推動全球AI社區的協作與創新。
此次發佈是AIDC-AI在Ovis系列模型基礎上取得的又一重要進展,爲多模態大語言模型的發展注入了新的活力。