相关推荐
百度 PaddleOCR-VL 模型登顶全球 OCR 榜,连续五日领跑 Huggingface 趋势榜
10月16日,百度飞桨发布视觉语言模型PaddleOCR-VL,以0.9B参数在权威评测OmniDocBench V1.5中获92.56分,超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日,Huggingface趋势榜前三均为OCR模型,百度飞桨位列第一。
2025年10月24号 13:58
263.2k
字节跳动推出 Sa2VA:结合 LLaVA 与 SAM-2 实现多模态智能分割
字节跳动联合高校推出Sa2VA模型,结合LLaVA视觉语言模型与SAM-2分割模型,能理解视频内容并精确追踪分割角色和物体。LLaVA擅长宏观叙事,SAM-2精于细节分割,互补提升视频分析能力。
2025年10月21号 17:13
174.2k
全面开源的 LLaVA-OneVision-1.5,超越 Qwen2.5-VL 的多模态模型登场
开源社区推出LLaVA-OneVision-1.5多模态模型,实现技术突破。该模型历经两年发展,从基础图文对齐升级为能处理图像、视频的综合框架,核心提供开放高效的可复现训练架构,支持用户便捷构建高质量视觉语言模型,训练过程分三个阶段推进。
2025年10月17号 10:08
149.0k
阿里通义千问推出Qwen3-VL轻量级模型:4B和8B参数版本性能逼近此前72B旗舰
阿里巴巴通义千问团队推出Qwen3-VL系列两款轻量级模型,参数规模分别为4B和8B。该系列是迄今最强的视觉语言模型家族,新增小参数版本旨在降低部署门槛,同时保持强劲性能。每个规模均提供指令遵循和思维链推理两个版本,为开发者提供更灵活选择。
2025年10月15号 10:51
191.0k
阿里巴巴推出紧凑型Qwen3-VL模型,提升多模态AI效率,加速边缘设备部署
阿里巴巴发布Qwen3-VL视觉语言模型紧凑版,含4亿和8亿参数变体,推动多模态AI在边缘设备应用。模型优化了STEM推理、视觉问答、OCR、视频理解等核心能力,性能媲美大型模型,实现技术重大突破。
2025年10月15号 10:41
141.4k
