先日、中国の複数の研究機関による研究チームが、「Infinity-MM」データセットを構築することに成功しました。これは現在公開されている多様なモダリティAIデータセットの中で最大規模のものの1つであり、同時に優れた性能を持つ小型の新モデル「Aquila-VL-2B」も開発されました。
このデータセットは主に4つのカテゴリーのデータで構成されています。1000万件の画像キャプション、2440万件の一般的なビジュアル指示データ、600万件の高品質な厳選された指示データ、そしてGPT-4やその他のAIモデルによって生成された300万件のデータです。
データ生成においては、既存のオープンソースAIモデルを活用しました。まず、RAM++モデルが画像を分析し、重要な情報を抽出し、関連する質問と回答を生成します。さらに、研究チームは特殊な分類システムを構築し、生成データの質と多様性を確保しました。

この合成データ生成手法は、多層的な処理方法を採用しており、RAM++とMiniCPM-Vモデルを組み合わせ、画像認識、指示分類、応答生成を通じて、AIシステムに正確なトレーニングデータを提供します。
Aquila-VL-2BモデルはLLaVA-OneVisionアーキテクチャに基づいており、言語モデルとしてQwen-2.5を使用し、画像処理にはSigLIPを採用しています。モデルのトレーニングは4つの段階に分かれており、段階的に複雑さが増していきます。最初の段階では、基本的な画像とテキストの関連付けを学習し、その後の段階では、一般的なビジュアルタスク、具体的な指示の実行、そして最終的に合成生成データの統合が行われます。画像解像度もトレーニングとともに徐々に向上します。

テストでは、Aquila-VL-2Bはわずか20億パラメータという規模でありながら、多様なモダリティのMMStarベンチマークテストで54.9%という最高得点を記録しました。さらに、数学タスクにおいては特に優れた性能を示し、MathVistaテストでは59%というスコアを達成し、同種のシステムを大きく上回りました。
一般的な画像理解のテストにおいても、Aquila-VL-2Bは優れた性能を示し、HallusionBenchでは43%、MMBenchでは75.2%というスコアを記録しました。研究者によると、合成生成データの追加によってモデルの性能が大幅に向上し、これらの追加データを使用しなかった場合、モデルの平均性能は2.4%低下すると述べています。
今回の研究チームは、データセットとモデルを研究コミュニティに公開することを決定しました。トレーニングプロセスには、主にNvidia A100 GPUと中国製のチップを使用しました。Aquila-VL-2Bの成功は、オープンソースモデルがAI研究において、従来のクローズドソースシステムに徐々に追いつきつつあることを示しており、特に合成トレーニングデータの活用において明るい展望を示しています。
Infinity-MM論文へのリンク: https://arxiv.org/abs/2410.18558
Aquila-VL-2Bプロジェクトへのリンク: https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen
要点:
🌐 データセット「Infinity-MM」には、1000万件の画像キャプションと2440万件のビジュアル指示データが含まれています。
💡 新モデルAquila-VL-2Bは、複数のベンチマークテストで優れた性能を示し、同種のモデルの記録を更新しました。
📈 合成データの使用によりモデルの性能が大幅に向上し、研究チームはデータセットとモデルをコミュニティに公開することを決定しました。
