腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA，多场景赋能 OCR 应用

11月25日，腾讯混元正式宣布开源全新 OCR 模型 HunyuanOCR。该模型参数仅10亿（1B），依托混元原生多模态架构打造，在多项业界 OCR 应用榜单中斩获 SOTA(最先进水平)成绩，为 OCR 技术落地提供轻量化高效解决方案。

HunyuanOCR 采用全端到端范式设计，由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分构成。其核心优势在于 “高效便捷”:体积小巧便于部署，单次前向推理即可实现功能最优输出，效率远超业界级联方案。

性能方面，HunyuanOCR 表现亮眼。在复杂文档解析的 OmniDocBench 测评中，以94.1分超越谷歌 Gemini3-Pro 等领先模型;在覆盖文档、手写、街景等9大场景的自建基准测试中，文字检测和识别能力大幅领先同类开源及商业模型;OCRBench 榜单上，其以1B 参数斩获总参数3B 以下模型 SOTA，总得分860分。小语种翻译领域，该模型支持14种高频小语种与中 / 英文互译，还拿下 ICDAR2025端到端文档翻译比赛小模型赛道冠军。

应用场景上，HunyuanOCR 可实现多语种复杂文档解析、票据字段 JSON 格式提取、视频双语字幕自动抽取等功能，已覆盖卡证处理、视频创作、跨境沟通等领域。目前，用户可通过 web 端、移动端链接或 GitHub、Hugging Face 开源地址下载体验，直接访问 Hugging Face 空间即可快速试用。

地址：

https://hunyuan.tencent.com/vision/zh?tabIndex=0

https://github.com/Tencent-Hunyuan/HunyuanOCR

清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军，NPU推理提速4.1倍

清华大学存储实验室与腾讯混元AI Infra团队在MLSys2026 MoE模型推理优化挑战赛中获全球冠军。针对万亿参数混合专家（MoE）架构在异构NPU上的推理瓶颈，联合团队设计了全链路优化方案，包括E-Shard策略、PSUM三维张量批量读出及GEMV路径，显著提升性能。

腾讯开源多语言翻译“利器”Hy-MT2，轻量版仅440MB可本地运行，小程序已上线

腾讯混元近日开源多语言翻译模型Hy-MT2，并同步推出“腾讯Hy翻译”小程序。该模型家族包含三种尺寸，支持33种语言互译及5种民族语言/方言翻译。其中，轻量级Hy-MT2-1.8B采用自研AngelSlim 1.25-bit极端量化技术，专为移动端优化，兼顾高质量与高效率。

微信宣布小程序成长计划正式接入Hy3 preview

微信小程序“成长计划”于5月15日完成模型升级，全面接入腾讯混元Hy3preview模型。新版本提供更强的逻辑推理与上下文理解能力，旨在提升开发者在微信生态内的智能化开发与运营体验。官方同步发布升级指南，助力计划实施。

腾讯混元 Hy3 预览版上线两周，Token 调用量激增超十倍

腾讯混元最新数据显示，自Hy3预览版上线后，Token调用量持续攀升，达到前代Hy2的十倍。增长主要集中于代码和智能体场景，尤其在WorkBuddy、Codebuddy和Qclaw等应用中，增幅超16.5倍。过去一周Token调用量达3.66万亿，获周榜总榜及市场占有率双第一，编程和智能体应用表现突出。

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案