10月16日、百度飛 paddle(PaddlePaddle)チームは最新の視覚言語モデル「PaddleOCR-VL」を正式に発表しました。リリース直後から世界中のOCR(光学文字認識)分野で大きな話題となりました。このモデルは、公式評価テスト「OmniDocBench V1.5」で0.9Bのパラメータ規模で92.56点を獲得し、DeepSeek-OCRを含むすべての主要モデルを上回り、世界のOCRランキングで首位に輝きました。

10月21日現在、Huggingfaceの世界的モデルトレンドランキング(Trending Models)のトップ3はすべてOCRモデルで占められています:
🥇PaddleOCR-VL(百度飛 paddle)
🥈DeepSeek-OCR
🥉NanonetOCR
その中でも、百度のPaddleOCR-VLは連続5日間トップを維持しており、現在最も注目されているオープンソースOCRモデルとなっています。
PaddleOCR-VLは109種類の言語の認識に対応し、テキスト、表、数式、グラフを正確に解析できるほか、ドキュメントの意味的構造を再構築する能力も備えています。これは、単なる文字認識だけでなく、複雑な文書の内容を理解できるということであり、研究論文や領収書の認識、知識抽出などの分野で非常に高い実用価値があります。
注目すべきは、DeepSeekチームが自身の論文で特に「PaddleOCR」に謝辞を述べており、訓練データの一部にPaddleOCRを使用したことを明かしていることです。この詳細は、現在のOCRモデルの繁栄の裏にある真のロジックを示しています。百度、DeepSeek、上海AI Labなどの機関はほぼ同時にOCRモデルをオープンソース化しており、目的は単に識別性能を競うことではなく、大規模モデルの訓練に必要なデータのクリーニングやラベリングを行うための基本的な能力を提供することでした。
言い換えれば、この「OCR軍備競争」の核心は、誰がより正確に識別できるかという点ではなく、AIが世界の文字と画像をどれだけ早く理解できるか
