マイクロソフトは最近、リアルタイムテキストから音声への変換(TTS)向けの軽量モデルであるVibeVoice-Realtime-0.5Bをリリースしました。このモデルはストリーミングテキスト入力と長文音声出力をサポートしており、代理アプリケーションやリアルタイムデータストーリーテリングに特に適しています。VibeVoice-Realtimeは約300ミリ秒で音声の出力を開始できるため、言語モデルが応答を生成している間にも重要です。

スマートな音声、AI

図の出典コメント:画像はAIによって生成され、画像のライセンス提供元はMidjourneyです。

VibeVoiceフレームワークは、連続する音声トークンを使用して次のトークンを拡散し、ポッドキャストなどの長編マルチスピーカー音声に適したさまざまなバリエーションをカバーしています。研究チームによると、メインバージョンのVibeVoiceモデルは最大90分の音声を合成でき、64kのコンテキスト窓内で最大4人のスピーカーの声を生成できます。

VibeVoice-Realtimeは、入力テキストを小さなブロックに分割するオーバーラップウィンドウ設計を使用しています。モデルは新しいテキストブロックをエンコードしながら、以前のコンテキストから音響特徴を継続的に生成できます。これにより、テキストエンコードと音響デコードの重複が生じ、適切なハードウェア上で約300ミリ秒の最初の音声遅延を達成できます。

長編VibeVoiceバリアントとは異なり、リアルタイムモデルは音響マーカーのみを使用し、7.5ヘルツの速度で動作します。音響マーカーはLatentLMのσVAEバリアントに基づいており、対称的なエンコーダー・デコーダー構造を持ち、24kHzの音声を3200倍にダウンサンプリングできます。

このモデルのトレーニングは2段階で行われます。まず音響マーカーを初期トレーニングし、その後マーカーを固定して大規模言語モデル(LLM)および拡散ヘッダーをトレーニングします。VibeVoice-RealtimeはLibriSpeechテストセットでゼロサムパフォーマンスを達成し、文字誤り率(WER)は2.00%、スピーカー類似度は0.695であり、他の最近のTTSシステムと同等の性能を示しています。

推奨される統合モードは、VibeVoice-Realtime-0.5Bを会話用LLMとともに実行することです。LLMは生成中にトークンをストリーミングします。このTTSプロセスには固定的な8kコンテキストと約10分の音声予算があり、典型的な代理会話、サポートコール、モニタリングダッシュボードに適しています。

huggingface:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

ポイント:

🌟 VibeVoice-Realtime-0.5Bはストリーミングテキスト入力をサポートし、300ミリ秒以内に音声出力を開始できます。これはリアルタイムインタラクティブなアプリケーションに適しています。

🛠️ このモデルは低遅延の音響マーカーを使用し、7.5ヘルツの速度で音響特徴を生成し、長編音声合成を最適化しています。

📈 LibriSpeechテストで、VibeVoice-Realtimeの文字誤り率は2.00%であり、優れた性能を示しており、さまざまな用途に適しています。