最近、アントグループは香港のフィンテックフェスティバルで画期的な技術である「多言語マルチモーダル大規模モデルトレーニングフレームワーク」を発表しました。この技術は、現在の大規模モデルが多言語環境において抱えている課題を解決することを目的としています。人工知能技術が急速に進化する中、大規模モデルはさまざまな業界での効率向上に重要なツールとなっています。しかし、英語を母語とする従来のモデルは、小語種の環境では性能が劣り、「言語の混在」や推論情報の混乱といった問題を引き起こし、グローバルな応用を妨げています。

こうした課題に対応するために、アントグループの研究チームはこの新しいフレームワークを開発し、多文化・多言語視覚質問応答ベンチマーク(CVQA)テストで大きな成果を収めました。このフレームワークはエジプトアラビア語、インドネシア語のジャワ語、バハサ語、スンダ語などのリソースが少ない小語種において特に優れたパフォーマンスを示し、優れた多言語認識能力を備え、上位にランクインしました。
この突破の核心は、イノベーションを施した言語認識最適化フレームワークです。このフレームワークは「目標言語で考える」メカニズムを採用し、細粒度かつ多次元の報酬戦略と自動データソリューションを組み合わせることで、小語種における深い理解と処理が可能になります。テスト結果によると、同等規模のオープンソースモデルと比較して、このフレームワークは主流の多言語視覚質問応答(Multilingual Visual Question Answering、VQA)ベンチマークテストにおいて正確性が約9.5%向上し、一部のタスクではGPT-4oやGemini-2.5-flashなどの国際的な主要非公開モデルを上回る結果を達成し、総合スコアで第1位を獲得しました。
セキュリティ能力の面でも、アントグループは画像セキュリティフレームワークを導入し、視覚分析と常識的推論に基づく偽造検出パスを統合することで、画像内の視覚的不一致や論理的矛盾を効率的に検出できます。この技術は、改変領域の特定だけでなく、説明可能な分析も行い、デジタルコンテンツのリスク管理能力を著しく向上させます。
アントグループのグローバルビジネスの中心技術であるこれらの能力は、ZOLOZドキュメント認証および真偽確認製品(RealDoc)で実用化されており、119の言語をサポートしています。これは、多言語ビジネス文書、契約書、証明書の効率的な処理が可能であり、保険請求、融資審査、国際貿易など多くのシナリオをカバーしています。
