最近、百度は自社開発のマルチモーダルドキュメント解析モデル「PaddleOCR-VL」を正式にリリースし、オープンソース化しました。このモデルは、世界的な権威あるドキュメント解析評価ランキングであるOmniBenchDoc V1.5で92.6点を獲得し、総合性能世界第1位を獲得しました。これは、テキスト、表、式、読み順の4つの主要能力において優れたパフォーマンスを示しています。

PaddleOCR-VLのコアモデルパラメータはわずか0.9Bであり、軽量で効率的な特徴を持ち、非常に低い計算コストで、テキストや手書き中国語、表、式、グラフなどの複雑な要素を正確に認識できます。このモデルは109言語をサポートしており、中国語、英語、フランス語、日本語、ロシア語、アラビア語、スペイン語など多様な言語シーンに対応し、政府・企業のドキュメント管理、知識検索、文書デジタル化、研究情報抽出などのスマートドキュメント処理タスクに適しています。

image.png

文心4.5の派生モデルであるPaddleOCR-VL-0.9Bは、NaViTの動的解像度画像エンコーダーとERNIE-4.5-0.3B言語モデルを統合することで、精度と効率の両方で大きな突破を達成しました。具体的には、OmniDocBench v1.5でのパフォーマンスが非常に目立ち、テキストの編集距離は0.035、式の認識CDMは91.43、表のTEDSは93.52、読み順予測誤差値は0.043というデータを記録しました。これらの数値は、複雑なドキュメント、手書き原稿、歴史文書の識別などの高難易度シナリオにおける安定性と信頼性を示しています。

image.png

推論速度に関しては、PaddleOCR-VLはA100 GPU1枚で1秒間に1881トークンを処理でき、他の主要モデルと比較して顕著な向上を遂げています。MinerU2.5よりも14.2%高速く、dots.ocrよりも253.01%も高速です。このようなパフォーマンスにより、PaddleOCR-VLはOCR技術において新たな基準を樹立しました。

image.png