このほど、IBMは「Granite-Docling-258M」という軽量な視覚言語AIモデルを正式にリリースしました。このモデルはファイル変換専用に設計されており、中国語、アラビア語、日本語など多くの言語をサポートし、ドキュメント処理の効率と正確性を向上させることを目的としています。Granite-Docling-258Mのパラメータ数は2億5800万で、文書の表処理に最適化されています。

image.png

従来のOCRソフトウェアと比較して、Granite-Docling-258Mは認識精度が顕著に向上しています。出力結果は元のドキュメントのレイアウト構造を完全に保持するだけでなく、表、数学式、リスト、コードブロックなどのさまざまな要素を効果的に識別できます。この新技術の核心は、IBM Researchが開発したDocTagsです。これは汎用的なファイル構造タグ言語であり、ページ要素の種類、位置、読み順を正確に記述することができます。

Granite-Docling-258Mは、ドキュメント変換の過程でまずドキュメント内の各要素を識別し、その後OCRを実行します。この方法により、コンテンツの抽出と出力がより効率的かつ正確になります。変換が完了すると、ユーザーはMarkdown、JSON、HTMLなど複数の形式にコンテンツをエクスポートできます。これにより、異なる使用ニーズに対応できます。さらに、IBMはDocTagsの語彙表をGraniteのトークナイザーやトレーニングプロセスに統合する予定で、モデルの性能をさらに向上させる計画です。

現在、Granite-Docling-258Mは企業レベルでの利用には至っていませんが、IBMは今後も言語のカバー範囲を拡大し、モデルの信頼性を高めていくと述べています。また、将来はDocTagsとIBM watsonx.aiモデルの互換性を強化し、技術の全面的な応用を目指す予定です。

この新しいモデルのリリースは、ドキュメント処理分野に新たな技術選択肢を提供し、関連業界の効率向上に強い支援をもたらすものです。

huggingface:https://huggingface.co/ibm-granite/granite-docling-258M

ポイント:  

📄 ** 軽量モデル **:IBMはGranite-Docling-258Mをリリースし、ファイル変換専用に設計されています。

🔍 ** 高精度 **:このモデルは従来のOCRソフトウェアよりも認識精度が高く、様々なドキュメント要素をサポートしています。

🌍 ** 多言語対応 **:Granite-Docling-258Mは現在、中国語、アラビア語、日本語をサポートしており、将来的にはさらに多くの言語を追加する予定です。