5月24日、バイトダンスのSeedチームは香港科技大学と共同で、マルチモーダル大規模言語モデル(LMM)の長文ドキュメント学習に関する最新の研究成果を発表しました。研究チームはアリババがオープンソースで公開したQwen2.5-VLを基盤として、MMProLongという新しいモデルを開発し、長文ドキュメント処理の効率において画期的な進展を遂げました。この研究は、マルチモーダルモデルにおける長文の学習の従来の方法を打ち破るだけでなく、データの構造がモデルの長文でのパフォーマンスに与える重要な影響を明らかにしています。

この研究の中心的な発見は、現在のLMM学習における課題に直接的に触れており、マルチモーダルな長文ドキュメントの学習において、特定の目的に向かって質問と回答(QA)のトレーニングを行うことが、従来の文字認識(OCR)変換よりもはるかに優れた結果をもたらすことが実験によって示されています。純粋なテキスト変換を学習タスクとして使用しても、モデルの長文での位置特定能力を向上させるどころか、パフォーマンスの低下を引き起こす可能性があることが分かっています。一方、バイトダンスのSeed2.0などの独立したモデルから生成された長文の質問と回答を用いてトレーニングを行うことで、モデルは冗長な不要情報の中で正確に目標セクションを検索できるようになります。

この最適化戦略に基づき、MMProLongはわずか128,000トークンの限られたトレーニング予算でも非常に高い長文の安定性を示しており、入力長が256,000や512,000トークンに達してもパフォーマンスの崩壊が見られず、MMLongBenchおよびMM-NIAH(大海捞針)のベンチマークテストにおいて、InternVL3-38BやGemma3-27Bといったより大きなオープンソースモデルを大幅に上回りました。さらに、MMProLongのマルチモーダル能力は、専門的にトレーニングされていない長動画の理解タスクにも成功して移行され、Qwen3-VL-8Bモデルにおいてもこの戦略の水密性(water-proof)の有効性が確認されました。

この研究は、DeepSeek(視覚情報の高度な圧縮と再順序付けによる構造のアップグレード)とは異なる進化の道を大規模モデル業界に提示し、長文の能力を飛躍的に向上させるには、下位構造を変更する代わりにトレーニングデータの構造を最適化することでも可能であることを証明しました。これにより、将来のより長いモーダルや複数ステップのインテリジェントエージェントの開発において、より経済的かつ効率的な技術的妥当性が開かれることが示されています。