近日,腾讯正式推出其全新开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,已在多个行业标准的 OCR 应用中取得了 SOTA(最先进水平)的佳绩。腾讯方面表示,HunyuanOCR 的 “端到端” 设计理念使得模型的各项功能在一次前向推理中便可快速获得最优结果。

HunyuanOCR 主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配轻量化混元语言模型。与市面上其他 OCR 模型不同的是,Hunyuan 采用了全端到端的训练和推理方式,并通过规模的应用导向数据以及在线强化学习,展现了出色的推理能力。
在复杂文档解析的测试中 HunyuanOCR 以94.1的高分超越了包括谷歌 Gemini3-pro 在内的多个领先模型。其文字检测和识别能力也非常出,涵盖了文档、艺术字、街景、手写、广告、票据等多种应用场景,相较于其他开源及商业 OCR 模型表现优异,在 OCR 中,该模型的总得分高达860分,成为总参数3B 以下的模型中的佼佼者。
HunyuanOCR 还支持14种语种的翻功能,在翻译领域,表现出。该模型对多复杂文档电子化处理,将扫描件拍摄图中的文本按照阅读顺序组织,并能够使用 LaTe 格式表示公式 HTML 格式复杂表格。
应用方面,HunyOCR 适合进行语种文档解析、票据字段抽取视频字幕识别及拍照翻译等任务,展示了广泛的应用潜力。
github:https://github.com/Tencent-Hunyuan/HunyuanOCR
划重点:
🔍 HunyuanOCR 模型1B,通过端到端设计实现多项 SOTA 成果。
📄该模型支持复杂文档解析、文字检测及识别,覆盖多种应用场景。
🌐 HunyuanOCR 还具备14小语种翻译能力,特别适用于拍照翻译功能。
