最近、研究者らはGOT(汎用OCR理論)と呼ばれる新しい汎用光学文字認識(OCR)モデルを開発しました。彼らの論文では、「OCR2.0」という概念が初めて提唱されており、この新しいモデルは従来のOCRシステムの長所と大規模言語モデルの強力な機能を組み合わせることを目指しています。
GOTのアーキテクチャは非常に高度で、約8000万パラメータの画像エンコーダと500万パラメータのデコーダで構成されています。画像エンコーダは1024x1024ピクセルの画像をトークンに圧縮し、デコーダはこれらのトークンを最大8000文字のテキストに変換します。この方法により、OCR2.0モデルは単純なテキストだけでなく、より複雑な情報も処理できます。
この新技術の魅力は、様々な種類の視覚情報を認識・変換できることにあります。具体的には、英語や中国語のシーンテキストやドキュメントテキスト、数式や化学式、楽譜、単純な幾何学図形、コンポーネントを含むグラフなどです。このような機能は、科学、音楽、データ分析などの分野における自動処理に新たな可能性をもたらします。

トレーニングプロセスの最適化のため、研究チームはまずテキスト認識タスクのみに対してエンコーダをトレーニングし、その後、アリババのQwen-0.5Bをデコーダとして導入し、多様な合成データを用いてモデルを微調整しました。LaTeX、Mathpix-markdown-it、TikZ、Verovio、Matplotlib、Pyechartsなどのレンダリングツールを使用して、数百万ペアの画像とテキストのトレーニングデータを作成しました。

GOTのモジュール式設計により、将来、新しい機能を柔軟に拡張することができ、モデル全体を再トレーニングする必要がありません。この設計により、システムの更新効率が大幅に向上します。さらに、研究者らは、GOTが様々なOCRタスクで優れた性能を示し、特にドキュメントやシーンテキスト認識において、一部の専用モデルや大規模言語モデルを上回ると述べています。

特筆すべきは、研究チームがGOTの無料デモとコードをHugging Faceで公開し、他の人が使用および開発を継続できるようにしたことでしょう。この新しいモデルは間違いなくOCR技術の発展を推進し、より広範な応用分野を切り開くでしょう。
デモ入口:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
要点:
📌 GOT(汎用OCR理論)は、従来のOCRシステムと大規模言語モデルを組み合わせた新しいOCRモデルであり、OCR2.0と呼ばれています。
📌 このモデルは、テキスト、数式、楽譜、グラフなど、様々な視覚情報を認識・変換でき、幅広い分野で適用可能です。
📌 モジュール式設計と合成データによるトレーニングにより、GOTは柔軟な拡張性を備え、多くのOCRタスクで優れた性能を発揮します。
