フランスの人工知能スタートアップ企業であるMistral AIは、今月23日に最新の文書コンテンツ認識モデル「OCR 4」を正式にリリースしました。この光学文字認識(OCR)モデルは、業界に大きな衝撃を与えています。この小型で特化したモデルは、10の語族にまたがる最大170言語をサポートしており、権威あるベンチマークテストであるOmniDocBenchで93.07点を獲得し、出力品質においてGPT 5.5 ProやGemini 3.1 Pro Previewなどの競合製品よりも人間の評価者から高い評価を得ました。

小型ながらも機能豊富で、多様なシナリオに対応
OCR 4は、パラメータ数を追求するのではなく、文書認識に特化した効率的なモデルです。テキストの認識だけでなく、枠の位置指定、領域の分類および信頼度スコアの提供も可能です。これは、RAGの意味的ブロック処理、エージェントの構造化基本単位、コネクタの構造化されたコンテンツなど、多くの下流ワークロードに広く対応します。
料金に関しては、OCR 4の基本API呼び出しは1,000ページあたり4ドルで、バッチ処理を使用すると50%の割引が適用されます。一方、ドキュメントAIの料金は1,000ページあたり5ドルです。
Mistral AIは、ヨーロッパのAI分野で最も代表的なスタートアップ企業の一つであり、これまでオープンソースとクローズドソースのモデル戦略を並行して実施することで、グローバル市場で注目を集めました。今回OCR 4をリリースすることで、同社の能力は汎用の大規模言語モデルからドキュメントのインテリジェント処理という垂直分野へとさらに拡大され、OpenAIやGoogleなどの巨頭と基礎ツール層で直接競争することになります。
