騰訊混元開源 HunyuanOCR 模型:1B 參數斬獲多項 SOTA，多場景賦能 OCR 應用

11月25日，騰訊混元正式宣佈開源全新 OCR 模型 HunyuanOCR。該模型參數僅10億（1B），依託混元原生多模態架構打造，在多項業界 OCR 應用榜單中斬獲 SOTA(最先進水平)成績，爲 OCR 技術落地提供輕量化高效解決方案。

HunyuanOCR 採用全端到端範式設計，由原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型三部分構成。其核心優勢在於 “高效便捷”:體積小巧便於部署，單次前向推理即可實現功能最優輸出，效率遠超業界級聯方案。

性能方面，HunyuanOCR 表現亮眼。在複雜文檔解析的 OmniDocBench 測評中，以94.1分超越谷歌 Gemini3-Pro 等領先模型;在覆蓋文檔、手寫、街景等9大場景的自建基準測試中，文字檢測和識別能力大幅領先同類開源及商業模型;OCRBench 榜單上，其以1B 參數斬獲總參數3B 以下模型 SOTA，總得分860分。小語種翻譯領域，該模型支持14種高頻小語種與中 / 英文互譯，還拿下 ICDAR2025端到端文檔翻譯比賽小模型賽道冠軍。

應用場景上，HunyuanOCR 可實現多語種複雜文檔解析、票據字段 JSON 格式提取、視頻雙語字幕自動抽取等功能，已覆蓋卡證處理、視頻創作、跨境溝通等領域。目前，用戶可通過 web 端、移動端鏈接或 GitHub、Hugging Face 開源地址下載體驗，直接訪問 Hugging Face 空間即可快速試用。

地址：

https://hunyuan.tencent.com/vision/zh?tabIndex=0

https://github.com/Tencent-Hunyuan/HunyuanOCR

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

百度開源3B模型Unlimited OCR:5天Star破萬，刷新長文檔解析紀錄

百度開源3B參數端到端OCR模型Unlimited OCR，專攻書籍論文等長文檔。項目上線5天GitHub Star破萬，登頂四項趨勢榜。技術上，推理激活約570M參數，創新引入Reference Sliding Window Attention機制，突破逐頁拼接限制，支持數十頁一次性連續解析，大幅提升長文檔處理效率。

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

騰訊混元聯合上海交大、新加坡南洋理工、天津大學、北大、復旦等機構，推出首個通用指令驅動音頻編輯基準測試集MMAE。該基準針對AI編輯現有音頻的能力，彌補了當前音頻生成領域“編輯”能力的不足，爲多任務音頻編輯研究提供了重要評估標準。

騰訊混元開源 HunyuanOCR 模型:1B 參數斬獲多項 SOTA，多場景賦能 OCR 應用

相關推薦

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

百度開源3B模型Unlimited OCR:5天Star破萬，刷新長文檔解析紀錄

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%