阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

阿里国际数字贸易集团（AIDC）的AI团队(AIDC-AI)近日发布全新多模态大语言模型Ovis2.5，提供9B和2B两种参数规模版本。该模型定位为经济型视觉推理解决方案，在其规模内展现出卓越性能，为多模态AI应用树立了新标杆。

Ovis2.5的核心特性

1. **原生分辨率感知**:Ovis2.5采用NaViT视觉编码器，无需损耗平铺即可保留图像的精细细节和全局结构，确保高质量的视觉处理能力。

2. **深度推理能力**:模型支持可选的“思考模式”，可能部分复用了阿里Qwen3的技术特性。除了线性思维链（CoT）推理外，Ovis2.5还能进行自我检查和修订，并支持可配置的思考预算，提升问题解决的精准度。

3. **图表与文档OCR领先**:在9B和2B规模上，Ovis2.5在复杂图表分析、文档理解（包括表格和表单）以及光学字符识别(OCR)领域达到业内领先水平，为实际应用场景提供强大支持。

4. **广泛任务覆盖**:该模型在图像推理、视频理解和视觉定位基准测试中表现出色，展现了强大的通用多模态能力。

Ovis2.5的发布彰显了AIDC-AI在多模态AI技术领域的持续创新。通过在紧凑模型规模内实现高性能，Ovis2.5为开发者和企业提供了一种高效且易于部署的解决方案，尤其适用于需要视觉与文本推理结合的场景。模型已在GitHub和Hugging Face等平台开源，进一步推动全球AI社区的协作与创新。

此次发布是AIDC-AI在Ovis系列模型基础上取得的又一重要进展，为多模态大语言模型的发展注入了新的活力。

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

腾讯混元联合UCLA、港中文等机构，针对多模态大语言模型（MLLMs）从“被动理解”向“主动推理”进化的需求，开源了多模态搜索智能体。此前，高质量数据、自动化轨迹合成路径及训练配方的缺失，导致顶尖智能体难以复现。此次开源旨在打破僵局，推动社区发展。

DeepSeek V4下周发布:原生支持影音图文生成，适配国产算力

深度求索将于下周发布多模态大模型V4，原生支持图像、视频与文本生成，旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明，一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。

DeepSeek V4 发布在即！全新多模态模型让 AI 生成更智能

深度求索将于下周推出多模态大模型DeepSeek V4，原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新，旨在满足国内对低成本开源模型的需求，推动AI发展。同时将发布简要技术说明，详细版本预计一个月后推出。

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

相关推荐

字节跳动联合港科大发布MMProLong：长文档LMM训练问答对效率远超OCR转录

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

DeepSeek V4下周发布:原生支持影音图文生成，适配国产算力

DeepSeek V4 发布在即！全新多模态模型让 AI 生成更智能