近日,騰訊正式推出其全新開源模型 HunyuanOCR,參數量僅爲1B。該模型基於騰訊獨創的混元多模態架構設計,已在多個行業標準的 OCR 應用中取得了 SOTA(最先進水平)的佳績。騰訊方面表示,HunyuanOCR 的 “端到端” 設計理念使得模型的各項功能在一次前向推理中便可快速獲得最優結果。

image.png

HunyuanOCR 主要由三大核心組件構成:原生分辨率視頻編碼器、自適應視覺適配輕量化混元語言模型。與市面上其他 OCR 模型不同的是,Hunyuan 採用了全端到端的訓練和推理方式,並通過規模的應用導向數據以及在線強化學習,展現了出色的推理能力。

在複雜文檔解析的測試中 HunyuanOCR 以94.1的高分超越了包括谷歌 Gemini3-pro 在內的多個領先模型。其文字檢測和識別能力也非常出,涵蓋了文檔、藝術字、街景、手寫、廣告、票據等多種應用場景,相較於其他開源及商業 OCR 模型表現優異,在 OCR 中,該模型的總得分高達860分,成爲總參數3B 以下的模型中的佼佼者。

HunyuanOCR 還支持14種語種的翻功能,在翻譯領域,表現出。該模型對多複雜文檔電子化處理,將掃描件拍攝圖中的文本按照閱讀順序組織,並能夠使用 LaTe 格式表示公式 HTML 格式複雜表格。

應用方面,HunyOCR 適合進行語種文檔解析、票據字段抽取視頻字幕識別及拍照翻譯等任務,展示了廣泛的應用潛力。

github:https://github.com/Tencent-Hunyuan/HunyuanOCR

劃重點:  

🔍 HunyuanOCR 模型1B,通過端到端設計實現多項 SOTA 成果。  

📄該模型支持複雜文檔解析、文字檢測及識別,覆蓋多種應用場景。  

🌐 HunyuanOCR 還具備14小語種翻譯能力,特別適用於拍照翻譯功能。