近年、マルチモーダル大規模言語モデル(MLLM)は、特に視覚とテキストのモダリティ統合において著しい進歩を遂げています。しかし、人間とコンピュータのインタラクションがますます普及するにつれて、特にマルチモーダル対話システムにおいて、音声モダリティの重要性も高まっています。音声は情報伝達の重要な媒体であるだけでなく、インタラクションの自然性と利便性を大幅に向上させることができます。

image.png

しかし、視覚データと音声データの本質的な違いにより、それらをMLLMに統合することは容易ではありません。例えば、視覚データは空間情報を伝達する一方、音声データは時間系列における動的な変化を伝達します。これらの根本的な違いは、2つのモダリティの同時最適化に課題をもたらし、トレーニングプロセスにおける衝突を引き起こすことがよくあります。さらに、従来の音声対音声システムは、独立した自動音声認識(ASR)とテキスト対音声(TTS)モジュールに依存しており、遅延が増加し、一貫性が低下し、リアルタイムアプリケーションにおける実用性が制限されています。

image.png

これらの課題に対処するために、研究者たちはVITA-1.5を発表しました。これは、視覚、言語、音声の3つのモダリティを統合したマルチモーダル大規模言語モデルです。VITA-1.5は、慎重に設計された3段階のトレーニング方法を採用し、視覚データと音声データを段階的に導入することで、モダリティの衝突を緩和しながら、強力なマルチモーダル性能を維持しています。

第1段階では、モデルは視覚と言語のトレーニングに焦点を当て、視覚アダプターをトレーニングし、記述的な字幕と視覚的な質問応答データを使用してモデルを微調整することで、強力な視覚能力を構築します。

第2段階では、音声入力処理を導入します。音声転写ペアデータを使用して音声エンコーダーをトレーニングし、その後、音声質問応答データを使用して微調整することで、モデルは音声入力を効果的に理解し、応答できるようになります。最後に、第3段階では、外部TTSモジュールを必要とせずにエンドツーエンドの音声出力を実現するために音声デコーダーをトレーニングします。これにより、VITA-1.5は流暢な音声応答を生成し、マルチモーダル対話システムの自然性とインタラクション性を高めます。

VITA-1.5の全体的なアーキテクチャには、視覚および音声エンコーダーと、大規模言語モデルに接続されたアダプターが含まれています。出力端には、最初のVITA-1.0バージョンのように外部TTSモデルを使用するのではなく、エンドツーエンドの音声生成モジュールがあります。視覚エンコーダーにはInternViT-300Mを採用し、入力画像サイズは448×448ピクセルで、画像ごとに256個の視覚トークンを生成します。

高解像度の画像に対しては、VITA-1.5は動的なパッチング戦略を採用して局所的な詳細を捉えます。ビデオは特殊な多画像入力タイプとして扱われ、ビデオの長さに応じてフレームがサンプリングされます。音声エンコーディングモジュールは、複数のダウンサンプリング畳み込み層と24個のTransformerブロックで構成され、出力フレームレートは12.5Hzです。音声アダプターは、2倍のダウンサンプリングを伴う複数の畳み込み層で構成されています。TiCodecはコーデックモデルとして使用され、連続的な音声信号を40Hzの離散的な音声トークンにエンコードし、それらを24,000Hzのサンプリングレートの音声信号にデコードできます。モデルが音声トークンを出力できるように、テキストトークンの後に2つの音声デコーダー(非自己回帰(NAR)音声デコーダーと自己回帰(AR)音声デコーダー)を追加します。

VITA-1.5のトレーニングデータは、字幕データや質問応答データなど、幅広いカテゴリを網羅しており、中国語と英語が含まれています。異なるトレーニング段階では、さまざまな目標に合わせてデータセット全体のサブセットを選択的にサンプリングします。トレーニング戦略は3つの段階で行われます。

第1段階:視覚と言語のトレーニング。視覚アライメント、視覚理解、視覚教師あり微調整を含み、視覚と言語のギャップを埋めることを目的とし、モデルが画像の内容を理解し、視覚的な質問に答えることができるようにします。

第2段階:音声入力の微調整。音声アライメントと音声教師あり微調整を含み、モデルが音声入力を理解し、音声による質問とテキストによる回答でインタラクションできるようにすることを目的としています。

第3段階:音声出力の微調整。コーデックトレーニングとNAR+ARデコーダートレーニングを含み、モデルが音声出力を生成し、エンドツーエンドの音声インタラクションを実現することを目的としています。

研究者たちは、画像、ビデオ、音声の理解に関するさまざまなベンチマークに対して広範な評価を行い、その結果をオープンソースとプロプライエタリモデルと比較しました。その結果、VITA-1.5は、画像とビデオのタスクにおいて、主要なMLLMに匹敵する知覚と推論能力を示し、音声能力においても顕著な改善が見られました。例えば、画像理解のベンチマークテストでは、VITA-1.5の性能は最先端のオープンソースモデルと同等か、一部のクローズドソースモデルを上回りました。ビデオ理解においては、VITA-1.5の性能はトップレベルのオープンソースモデルと同等でした。さらに、VITA-1.5は、中国語と英語のASRタスクの両方で、専門的な音声モデルを上回る高い精度を達成しました。

総じて、VITA-1.5は、慎重に設計された3段階のトレーニング戦略により、視覚と音声をうまく統合し、強力な視覚と音声の理解能力を実現することで、独立したASRまたはTTSモジュールに依存することなく、効率的な音声対音声インタラクションを行うことができます。この研究は、リアルタイムマルチモーダルインタラクション分野におけるオープンソースモデルの進歩を促進すると期待されます。

プロジェクトアドレス:https://github.com/VITA-MLLM/VITA