騰訊發佈 HunyuanOCR 開源模型，參數僅 1B 成就多項 SOTA 表現

近日，騰訊正式推出其全新開源模型 HunyuanOCR，參數量僅爲1B。該模型基於騰訊獨創的混元多模態架構設計，已在多個行業標準的 OCR 應用中取得了 SOTA（最先進水平）的佳績。騰訊方面表示，HunyuanOCR 的 “端到端” 設計理念使得模型的各項功能在一次前向推理中便可快速獲得最優結果。

HunyuanOCR 主要由三大核心組件構成:原生分辨率視頻編碼器、自適應視覺適配輕量化混元語言模型。與市面上其他 OCR 模型不同的是，Hunyuan 採用了全端到端的訓練和推理方式，並通過規模的應用導向數據以及在線強化學習，展現了出色的推理能力。

在複雜文檔解析的測試中 HunyuanOCR 以94.1的高分超越了包括谷歌 Gemini3-pro 在內的多個領先模型。其文字檢測和識別能力也非常出，涵蓋了文檔、藝術字、街景、手寫、廣告、票據等多種應用場景，相較於其他開源及商業 OCR 模型表現優異，在 OCR 中，該模型的總得分高達860分，成爲總參數3B 以下的模型中的佼佼者。

HunyuanOCR 還支持14種語種的翻功能，在翻譯領域，表現出。該模型對多複雜文檔電子化處理，將掃描件拍攝圖中的文本按照閱讀順序組織，並能夠使用 LaTe 格式表示公式 HTML 格式複雜表格。

應用方面，HunyOCR 適合進行語種文檔解析、票據字段抽取視頻字幕識別及拍照翻譯等任務，展示了廣泛的應用潛力。

github:https://github.com/Tencent-Hunyuan/HunyuanOCR

劃重點:
🔍 HunyuanOCR 模型1B，通過端到端設計實現多項 SOTA 成果。
📄該模型支持複雜文檔解析、文字檢測及識別，覆蓋多種應用場景。
🌐 HunyuanOCR 還具備14小語種翻譯能力，特別適用於拍照翻譯功能。

騰訊擬接盤Manus成最大股東，估值20億美元發力智能體生態

7月10日消息，騰訊正洽談成爲新加坡AI初創Manus最大股東。此前Meta於2025年底達成的超20億美元（約136億元）收購交易已被要求撤銷。現有股東騰訊、真格基金、紅杉中國及管理層擬以同樣估值支持撤銷該交易，騰訊將在此輪認購最多股份，交易完成後或保留少數股權。

騰訊發佈 HunyuanOCR 開源模型，參數僅 1B 成就多項 SOTA 表現

相關推薦

騰訊擬接盤Manus成最大股東，估值20億美元發力智能體生態

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

可靈AI將完成30億美元融資騰訊參投，計劃12個月內啓動赴港IPO

騰訊 Marvis 馬維斯 iOS 版上線:掏出手機，就能遠程接管你的電腦桌面

騰訊“碳尋計劃”二期終選名單公佈，支持16個團隊用全球方案解決全球問題