DeepSeekは、新世代のドキュメント認識モデル「DeepSeek-OCR2」を発表しました。 このモデルは、視覚エンコーダーの設計において大きな突破を遂げており、従来モデルが複雑なレイアウトのドキュメントを処理する際の論理的欠如を解決することを目的としています。

image.png

DeepSeek-OCR2のコアの特長は、自社開発した「DeepEncoder V2」エンコーダーです。 伝統的なビジュアルモデルが左から右、上から下への固定グリッド順序で画像を処理するのとは異なり、新しいモデルでは「視覚的因果フロー」という概念を取り入れました。 これは、画像の意味に基づいて情報処理の順序を動的に調整できるもので、文字の認識前に視覚的な内容をスマートに並べ替え、機械の読解ロジックをテーブルや数式、複雑なドキュメントの理解方法に近づけます。

構造的には、効率的な符号化・復号フレームワークを採用しています。 画像はDeepEncoder V2によって意味モデリングと順序再構成され、その後、混合エキスパート構造(MoE)言語モデルによって復号されます。 実験データによると、OmniDocBench v1.5の基準テストにおいて、DeepSeek-OCR2の総合スコアは91.09%に達し、前バージョンより3.73%向上しています。 特に読み順の正確度において、編集距離が顕著に低下しており、モデルがコンテンツ構造をより正確に復元できていることを示しています。

さらに、DeepSeek-OCR2は実際のアプリケーションでの安定性も強化されています。 PDFのバッチ処理やオンラインログデータのテストにおいて、識別重複率が明確に低下しています。 これは、モデルが低リソースコストを維持しながら、より高品質で論理的な識別出力を提供できることを意味します。

重要なポイント:

  • 動的意味順序: DeepSeek-OCR2は「視覚的因果フロー」技術により、従来の固定グリッドの識別順序を打ち破り、意味に基づく動的な読み込みを実現しています。

  • 性能の飛躍的向上: 公認の基準テストにおいて、新モデルの識別性能は3.73%向上し、読み順の正確度も顕著に強化されています。

  • 効率的なMoE構造: モデルは引き続きMoE構造を使用して復号を行い、計算能力の負担を増さずに、より高い識別精度と信頼性を実現しています。