シンガポールのスーパーアプリケーション会社であるGrabは、最近そのエンジニアリングブログで自社開発した言語モデルの開発経験を共有し、既存の大型言語モデルが東南アジア言語を理解する際には不十分であることを指摘しました。Grabのスーパーアプリケーションは、タクシー配車、宅配、ショッピング、金融サービスなどの機能を提供しており、シンガポール、マレーシア、インドネシア、フィリピン、ベトナム、タイ、カンボジア、ミャンマーなどの国をカバーしています。これらの地域では非ラテン文字を使用する文書が一般的です。

図の出典コメント:AI生成画像
顧客の身分証明などコンプライアンス業務を行う際に、Grabは免許証や登録証などの情報を正確に抽出する必要があります。光学文字認識(OCR)システムを試したものの、Grabは多様な文書テンプレートに対応する際に効果が不十分であることを発見しました。
2025年にGrabは、この問題を解決するために大規模言語モデルを活用できるかどうかを探求し始めました。一部の強力な商用モデルは能力があるものの、東南アジア言語を理解する際にはエラーと遅延が頻繁に発生します。一方、オープンソースのビジュアル大規模言語モデルはより効率的ですが、精度はまだ不足しています。そのため、Grabは自社でビジュアル大規模言語モデルを構築することを決定しました。このモデルは画像をベクトル化し、テキストの抽出を容易にするものです。
Grabは、アリババクラウドのQwen2-VL2Bモデルを基盤として選択しました。これはサイズが適度で、東南アジア言語をサポートし、異なる解像度の画像を動的に処理できるからです。その後、GrabはCommon Crawlから東南アジア言語のコンテンツを抽出し、内部の合成データパイプラインを構築して、さまざまなフォントや背景を持つテキスト画像を生成しました。チームはQwen2-VLに対してロー・ランクアダプテーション技術を採用し、インドネシアの文書処理において良好な結果を得ました。
タイ語やベトナム語の識別にはまだ課題がありますが、Grabは最終的に完全パラメータの微調整を行いました。モデルを訓練し、東南アジア言語の独自の視覚パターンを学習させることで、Grabは軽量なビジュアル大規模言語モデルを開発し、多くのOCRツールや汎用モデルを上回る性能を達成しました。Grabは、戦略的に高品質なデータを使用することで、小さな専門モデルが効率的かつ効果的な結合を実現できることを述べています。
今後、Grabはさらに多くの自社モデルを開発し、文書処理技術を拡張する予定です。
ポイント:
📊 Grabは既存の大規模言語モデルが東南アジア言語の認識に不向きであることを発見し、自社でモデルを開発して問題を解決することを決定しました。
🔍 自社で開発したビジュアル大規模言語モデルは、身分証明書や運転免許証などの文書処理において顕著な進展を遂げました。
🚀 Grabは今後もさらに多くのモデルを開発し、ますます複雑化する文書処理のニーズに対応する予定です。
