智譜は本日、プロフェッショナルなOCRモデル「GLM-OCR」を正式にリリースし、オープンソース化しました。このモデルは0.9Bの軽量なサイズで、階層を超えたパフォーマンスの飛躍を実現し、多くの権威あるベンチマークテストで首位を記録しています。複雑なドキュメント解析における実際のビジネス上の課題を解決することを目的としています。

コア性能:小規模なサイズでのSOTA表現

パラメータ数がわずか0.9Bであるにもかかわらず、GLM-OCRのパフォーマンスは驚くほどです。権威あるドキュメント解析ランキング「OmniDocBench V1.5」において、94.6点という高得点で優勝し、汎用的大規模モデル「Gemini-3-Pro」に近づいています。テキスト認識、数学式の導出、複雑な表の解析、そしてキーデータ抽出(KIE)の面で、SOTA(業界最高水準)の成果を収めています。

QQ20260203-085726.png

シナリオの突破:複雑なドキュメントの課題に直面

GLM-OCRは、6つの難しい業務シナリオに対して特別な最適化を行い、安定したパフォーマンスを発揮しています:

  • 複雑な表: 合併セルと多段表頭をサポートし、標準的なHTMLコードを直接出力できます。

  • 構造化抽出: カードや領収書などの識別をスマートに行い、標準的なJSON形式で出力します。

  • 手書きとコード: 教育・研究分野での手書き式やプログラマのコードスクリーンショットに対応しています。

  • 特殊なマーク: 印章の認識や多言語混在処理の能力が非常に高いです。

QQ20260203-085732.png

極限効率:推論が速く、コストが低い

効率とコスト管理において、GLM-OCRは非常に強い商業的競争力を示しています:

  • 高速な推論: PDF処理のスループットは1.86ページ/秒に達し、同種のモデルより顕著に優れています。vLLMやOllamaなどの主流なデプロイ方法をサポートしています。

  • 極めてコスト効果の高い: API価格は0.2元/百万トークンまで低下しています。従来のOCRソリューションと比較すると、コストはその10分の1であり、A4スキャン画像1,000枚の処理には約0.5元しかかかりません。

技術の秘密:マルチモーダル構造と強化学習

GLM-OCRはGLM-Vシリーズのアーキテクチャを継承しており、自社開発の「CogViTビジュアルエンコーダー」を統合しています。**複数トークン予測損失(MTP)**と全タスク強化学習の導入により、複雑なレイアウト下での汎化能力が顕著に向上しました。独自の4倍ダウンサンプリング戦略とSwiGLUメカニズムにより、視覚情報と言語デコーダーの効率的な統合が確保されています。

現在、GLM-OCRはGitHubおよびHugging Faceで同時にオープンソース化されており、智譜オープンプラットフォームでも関連APIおよび割引パッケージが公開されています。