5月11日、知能文書処理分野に大きな進展がもたらされました——ビジュアル-言語モデル向けの初の統一ベンチマーク「IDPリーダーボード」が正式にリリースされました。このベンチマークは、16のデータセットと9229の文書を使用して、現在の主要なモデルがOCR、重要な情報抽出、視覚的質問応答、テーブル抽出、分類、および長文文書処理の6つの主要タスクにおいてどれだけ優れているかを包括的に評価し、業界の発展に量的な参照値を提供します。

テスト結果によると、Gemini2.5Flashは総合的な実力を誇っていますが、OCRと分類タスクでは予想外の「戦慄」が発生しました。前世代のGemini2.0Flashよりもパフォーマンスが低下し、それぞれ1.84%と0.05%減少しました。業界の専門家は、これはGoogleがモデルの反復改良でマルチモーダル推論能力に過度に重点を置き、基礎的なテキスト認識機能の最適化を軽視したことが原因かもしれないと分析しています。
一方で、OpenAIのGPT-4o-miniはチャートや図解の理解において注目を集め、特に視覚的質問応答タスクであるChartQAで際立ってきました。しかし、同モデルの各リクエストにおけるトークンコストは最も高いため、実際の利用において無視できない制約となっています。開発者コミュニティでの議論の焦点も、パフォーマンスとコストのバランスをどう取るかに集中しています。

長文文書処理とテーブル抽出が依然として現在のビジュアル-言語モデルの「アキレス腱」として浮き彫りになっています。最高のモデルであっても、長文タスク(LongDocBench)では69.08%というスコアしか得られず、テーブル抽出(GriTS指標に基づく)でも最高66.64%に留まっています。この結果はAIが複雑なレイアウトや長い文脈を処理する際の限界を示しています。
IDPリーダーボードは挑戦的な多様なデータセットを採用しており、手書きテキスト、印刷されたテキスト、アクセント付きテキスト、構造化および非構造化テーブル、そして最大21ページにわたる複雑な文書を含みます。評価指標もタスクの特性に合わせて柔軟に選択され、OCR、KIE、VQA、長文処理には編集距離精度、分類には完全一致精度、テーブル抽出にはGriTS指標が使用され、評価の包括性と公平性を確保しています。
このベンチマークは定期的にデータセットを更新し、さらなるモデル(Claudeシリーズなど)を導入することで評価の動的かつ権威ある性質を維持する計画です。開発者はGitHub(https://github.com/nanonets/idp-leaderboard)から関連するデータセットと評価コードにアクセスし、コミュニティディスカッションに参加することができます。
知能文書処理ベンチマークの公開は、マルチモーダルAIが文書処理分野で定量的な評価段階に到達したことを意味します。Gemini2.5Flashは強大な力を示しましたが、テストは現在の技術が直面している課題を明らかにしました。データセットの継続的な拡張とモデルの最適化が進めば、知能文書処理技術は企業の自動化、アーカイブのデジタル化、スマート検索などの分野でより大きな価値を発揮し、デジタルトランスフォーメーションに強力な技術的サポートを提供することになるでしょう。
