Meta AIが最新発表したSPIRIT-LMは、画期的なマルチモーダル基盤言語モデルです。テキストと音声の自由な混合が可能で、まるで人間のように感情を理解し表現できます。

SPIRIT-LMは、事前にトレーニングされたテキスト言語モデルをベースに構築されています。テキストと音声のユニットで継続的にトレーニングすることで、音声モダリティに拡張されました。このモデルは、音声とテキストのシーケンスを単一のトークンセットに連結し、小規模で自動管理された音声-テキスト平行コーパスを使用して、単語レベルのインターリーブ手法でトレーニングされます。

QQ20241021-092227.png

SPIRIT-LMには2つのバージョンがあります。

ベース版(SPIRIT-LM-BASE)は、音声意味ユニットを使用します。

感情表現版(SPIRIT-LM-EXPRESSIVE)は、感情表現をシミュレートするために、音調とスタイルのユニットを使用します。さらに、意味ユニットも含まれています。

どちらのバージョンも、サブワードBPEトークンを使用してテキストをエンコードします。

SPIRIT-LMは、テキストモデルのセマンティック能力と音声モデルの表現能力を兼ね備えているため、音声認識、テキスト読み上げ、音声分類などのクロスモーダルタスクを実行でき、少量のサンプルで新しいタスクを学習できます。

生成モデルの表現能力を評価するために、研究者らは音声-テキスト感情保存ベンチマーク(STSP)を導入しました。このベンチマークは、モーダル内とクロスモーダルにおいて、口頭および書面での表現の感情保存度を測定します。

感情表現版SPIRIT-LMは、モーダル内とクロスモーダルにおいて、テキストと音声プロンプトの感情を保存できる最初の言語モデルです。音調とスタイルのトークンを使用して音声の感情とスタイルを捉え、特別に設計された音声-テキスト感情保存ベンチマークで評価されます。

QQ20241021-092239.png

研究結果によると:

SPIRIT-LMは、音声モダリティにおける語彙、文法、意味の理解において、既存のモデルと同等でありながら、優れたテキスト生成能力を維持しています。

インターリーブトレーニングは、SPIRIT-LMの成功の鍵であり、音声とテキストトークン間の対応関係を学習することで、より優れたテキスト読み上げを実現しています。

事前トレーニングされた知識は、SPIRIT-LMの少サンプル学習能力に非常に重要です。

SPIRIT-LM-EXPRESSIVEは、より表現力豊かな音声を捉え生成でき、感情表現においてベース版を上回っています。

SPIRIT-LMは、AI言語モデル発展史における重要なマイルストーンであり、マルチモーダル言語理解と生成の全く新しい可能性を切り開き、よりスマートで人間的なAIアプリケーションの未来の基盤を築いています。

論文アドレス:https://arxiv.org/pdf/2402.05755

プロジェクトアドレス:https://github.com/facebookresearch/spiritlm