バイチューティアが香港科技大学と共同でMMProLongを発表：長文のLMM訓練用Q&Aデータの効率はOCR変換を大幅に上回る

5月24日、バイトダンスのSeedチームは香港科技大学と共同で、マルチモーダル大規模言語モデル（LMM）の長文ドキュメント学習に関する最新の研究成果を発表しました。研究チームはアリババがオープンソースで公開したQwen2.5-VLを基盤として、MMProLongという新しいモデルを開発し、長文ドキュメント処理の効率において画期的な進展を遂げました。この研究は、マルチモーダルモデルにおける長文の学習の従来の方法を打ち破るだけでなく、データの構造がモデルの長文でのパフォーマンスに与える重要な影響を明らかにしています。

この研究の中心的な発見は、現在のLMM学習における課題に直接的に触れており、マルチモーダルな長文ドキュメントの学習において、特定の目的に向かって質問と回答（QA）のトレーニングを行うことが、従来の文字認識（OCR）変換よりもはるかに優れた結果をもたらすことが実験によって示されています。純粋なテキスト変換を学習タスクとして使用しても、モデルの長文での位置特定能力を向上させるどころか、パフォーマンスの低下を引き起こす可能性があることが分かっています。一方、バイトダンスのSeed2.0などの独立したモデルから生成された長文の質問と回答を用いてトレーニングを行うことで、モデルは冗長な不要情報の中で正確に目標セクションを検索できるようになります。

この最適化戦略に基づき、MMProLongはわずか128,000トークンの限られたトレーニング予算でも非常に高い長文の安定性を示しており、入力長が256,000や512,000トークンに達してもパフォーマンスの崩壊が見られず、MMLongBenchおよびMM-NIAH（大海捞針）のベンチマークテストにおいて、InternVL3-38BやGemma3-27Bといったより大きなオープンソースモデルを大幅に上回りました。さらに、MMProLongのマルチモーダル能力は、専門的にトレーニングされていない長動画の理解タスクにも成功して移行され、Qwen3-VL-8Bモデルにおいてもこの戦略の水密性（water-proof）の有効性が確認されました。

この研究は、DeepSeek（視覚情報の高度な圧縮と再順序付けによる構造のアップグレード）とは異なる進化の道を大規模モデル業界に提示し、長文の能力を飛躍的に向上させるには、下位構造を変更する代わりにトレーニングデータの構造を最適化することでも可能であることを証明しました。これにより、将来のより長いモーダルや複数ステップのインテリジェントエージェントの開発において、より経済的かつ効率的な技術的妥当性が開かれることが示されています。

DeepSeek V4が来週発売: ネイティブな音声・映像・画像生成をサポートし、国内のコンピューティング能力に対応

深度求索は来週、画像・動画・テキスト生成をネイティブサポートする多モーダル大規模モデルV4をリリース。国内の高性能低コストオープンソース多モーダルモデル市場の空白を埋める。1月のR1推論モデル以来の初の大型アップデート。初期は簡易技術説明を提供、1ヶ月後に詳細なエンジニアリングレポートを公開。V4は華為・寒武紀と基盤エコシステムで連携済み。....

DeepSeek V4の発表が間近！新たなマルチモーダルモデルでAIの生成をよりスマートに

深度求索は来週、画像・動画・テキスト生成をネイティブサポートするマルチモーダル大規模モデル「DeepSeek V4」をリリース。国内の低コストオープンソースモデル需要に対応し、AI発展を推進。技術概要も同時公開、詳細版は約1ヶ月後予定。....

バイトダンスが画期的なAIモデルVidi2を発表：120億パラメーターで動画編集を完全自動化

バイトダンスが120億パラメーターを持つ動画理解モデルVidi2を発表しました。このモデルは数時間分の原始素材を処理し、ストーリーの構成を理解し、プロンプトに従ってTikTokの動画や映画のカットを生成できます。その核心的突破は、正確な時空間定位（STG）機能で、動画内の時空間的な詳細を同時に認識でき、動画編集業界を大きく変えると期待されています。

マイクロソフト、地質図の理解を支援するGeoMap-Benchを発表

地質科学分野において、地質図は地球の表面と地下構造を理解するための重要なツールです。しかし、これらの複雑な図表を解釈するには専門知識と豊富な経験が必要です。この分野の知能化レベルを高めるため、マイクロソフトアジア研究院は最近、地質図の理解におけるマルチモーダル大規模言語モデル（MLLM）の性能を評価するために設計された新しいベンチマークセット、GeoMap-Benchを発表しました。GeoMap-Benchの発表は、地質図解釈における人工知能の応用における重要な一歩を示しています。マイクロソフトの研究者と…

バイチューティアが香港科技大学と共同でMMProLongを発表：長文のLMM訓練用Q&Aデータの効率はOCR変換を大幅に上回る

関連推奨

DeepSeek V4が来週発売: ネイティブな音声・映像・画像生成をサポートし、国内のコンピューティング能力に対応

DeepSeek V4の発表が間近！新たなマルチモーダルモデルでAIの生成をよりスマートに

バイトダンスが画期的なAIモデルVidi2を発表：120億パラメーターで動画編集を完全自動化

アリ国際デジタルトレードグループAIチームがOvis2.5を発表：経済的視覚推論モデルの新突破

マイクロソフト、地質図の理解を支援するGeoMap-Benchを発表