最近、テンセントはその全新开発されたオープンソースモデル「HunyuanOCR」を正式にリリースしました。パラメータ数はわずか1Bです。このモデルはテンセント独自の混元マルチモーダルアーキテクチャにより設計されており、複数の業界標準的なOCRアプリケーションで最善の結果を達成しています。テンセント側では、HunyuanOCRの「エンド・トゥ・エンド(端から端まで)」のデザイン理念により、モデルのさまざまな機能が一度のフォワード推論で迅速かつ最適な結果を得られると述べています。

HunyuanOCRは主に3つのコアコンポーネントから構成されています: オリジナル解像度のビデオエンコーダー、自己適応型ビジョン対応の軽量混元言語モデル。市場に出ている他のOCRモデルとは異なり、Hunyuanはエンド・トゥ・エンドのトレーニングと推論方式を採用しており、大規模なアプリケーション指向データおよびオンライン強化学習を通じて優れた推論能力を示しています。
複雑なドキュメント解析のテストにおいて、HunyuanOCRはグーグルのGemini3-proを含むいくつかの先進モデルを上回る94.1という高いスコアを記録しました。文字検出および認識能力も非常に高く、ドキュメント、芸術的な文字、街並み、手書き、広告、領収書などの多様なシナリオをカバーしています。他のオープンソースおよび商用OCRモデルよりも優れた性能を示し、OCR分野では総得点が860点となり、3B以下のパラメータを持つモデルの中で最も優れたものとなっています。
HunyuanOCRは14の言語の翻訳機能をサポートしており、翻訳分野でも優れた性能を発揮します。このモデルは複雑なドキュメントの電子化処理を行い、スキャンされた資料や写真中のテキストを読み順に整理し、LaTeX形式で数式やHTML形式で複雑な表を表示できます。
応用面では、HunyuanOCRは言語ドキュメントの解析、領収書のフィールド抽出、動画字幕の識別、および写真翻訳などのタスクに適しています。これにより、幅広い応用可能性を示しています。
github:https://github.com/Tencent-Hunyuan/HunyuanOCR
ポイント:
🔍 HunyuanOCRモデルは1Bで、エンド・トゥ・エンド設計により多くのSOTA成果を達成しています。
📄 このモデルは複雑なドキュメント解析、文字検出および認識をサポートし、多様なシナリオをカバーしています。
🌐 HunyuanOCRは14の小語種翻訳能力を持ち、特に写真翻訳機能に適しています。
