AI技術会社のDeepSeekは最近、新しい光学文字認識(OCR)モデルである「DeepSeek-OCR」をリリースしました。このモデルは、長文を一組の視覚的タグに圧縮し、その後言語モデルでデコードすることで、効率的なドキュメント解析を実現するエンド・トゥ・エンドのビジュアル・ランゲージ・モデル(VLM)です。

image.png

研究チームによると、このモデルはFoxベンチマークテストで97%のデコード精度を達成し、テキストタグ数とビジョナルタグ数の比率が10倍でも精度は良好であり、20倍の圧縮でも有用な特性を示しています。また、DeepSeek-OCRはOmniDocBenchベンチマークテストでも優れた性能を発揮しており、従来のモデルよりもはるかに少ないビジョナルタグ数を使用しています。

DeepSeek-OCRのアーキテクチャは、高解像度入力用のビジュアルエンコーダーであるDeepEncoderと、DeepSeek3B-MoE-A570Mと呼ばれるエキスパート混合デコーダーの2つの主要なコンポーネントから構成されています。このエンコーダーは、SAMに基づくローカル感知窓注意メカニズムと畳み込み圧縮アルゴリズムを採用しており、高解像度下でのアクティブメモリを効果的に制御し、出力タグの数を減らすことができます。デコーダーは30億パラメータを持つモデルで、各タグには約5.7億のアクティブパラメータがあります。

image.png

異なるモードを使用する場合、DeepEncoderはTiny、Small、Base、Largeモードなど、複数の解像度選択を提供し、それぞれが異なるビジョナルタグ数と解像度に対応しています。さらに、動的モードのGundamとGundam-Masterがあり、ページの複雑さに応じてタグ予算を柔軟に調整できます。

トレーニングの過程では、DeepSeekチームは段階的なトレーニングプロセスを使用しました。まずDeepEncoderに対して次のタグ予測のトレーニングを行い、次に複数のノードで全システムのトレーニングを行いました。最終的には、1日で20万ページ以上のドキュメントを生成できました。実際の用途において、チームはユーザーにSmallモードから始めるよう推奨しています。ページに密集した小文字や高タグ数が含まれている場合は、Gundamモードを選択することをお勧めします。

image.png

DeepSeek-OCRのリリースは、ドキュメントAI分野における重要な進歩を示しています。このモデルの効率性と柔軟性により、さまざまなドキュメントの処理において高い適応性を持っています。

論文:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

huggingface:https://huggingface.co/deepseek-ai/DeepSeek-OCR

ポイント:

🌟 DeepSeek-OCRは、新しくリリースされた3Bのビジュアル言語モデルで、効率的なOCRおよびドキュメント解析能力を持っています。

📊 このモデルはFoxベンチマークテストで97%のデコード精度を達成し、大幅な圧縮でも良好な性能を維持しています。

🔧 DeepEncoderは、異なるドキュメントの複雑さや要件に応じて、複数のモードと解像度の選択が可能です。