11月25日,騰訊混元正式宣佈開源全新 OCR 模型 HunyuanOCR。該模型參數僅10億(1B),依託混元原生多模態架構打造,在多項業界 OCR 應用榜單中斬獲 SOTA(最先進水平)成績,爲 OCR 技術落地提供輕量化高效解決方案。

QQ20251125-145232.png

HunyuanOCR 採用全端到端範式設計,由原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型三部分構成。其核心優勢在於 “高效便捷”:體積小巧便於部署,單次前向推理即可實現功能最優輸出,效率遠超業界級聯方案

QQ20251125-145249.png

性能方面,HunyuanOCR 表現亮眼。在複雜文檔解析的 OmniDocBench 測評中,以94.1分超越谷歌 Gemini3-Pro 等領先模型;在覆蓋文檔、手寫、街景等9大場景的自建基準測試中,文字檢測和識別能力大幅領先同類開源及商業模型;OCRBench 榜單上,其以1B 參數斬獲總參數3B 以下模型 SOTA,總得分860分。小語種翻譯領域,該模型支持14種高頻小語種與中 / 英文互譯,還拿下 ICDAR2025端到端文檔翻譯比賽小模型賽道冠軍。

QQ20251125-145300.png

應用場景上,HunyuanOCR 可實現多語種複雜文檔解析、票據字段 JSON 格式提取、視頻雙語字幕自動抽取等功能,已覆蓋卡證處理、視頻創作、跨境溝通等領域。目前,用戶可通過 web 端、移動端鏈接或 GitHub、Hugging Face 開源地址下載體驗,直接訪問 Hugging Face 空間即可快速試用。

地址:

https://hunyuan.tencent.com/vision/zh?tabIndex=0

https://github.com/Tencent-Hunyuan/HunyuanOCR