マイクロソフトは、新しくリアルタイムのテキストから音声への変換モデル「VibeVoice-Realtime-0.5B」を公開しました。モデルの規模は0.5Bですが、リアルタイムに近い音声生成能力を持ち、約300ミリ秒で発声を開始することができ、会話が終わる前に音声が届くようなスムーズな体験を実現しています。このモデルは中国語と英語のリアルタイム変換と音声生成をサポートしており、中国語の性能はやや英語に劣りますが、全体として高いスムーズさと高い再現性を維持しています。

VibeVoice-Realtime-0.5Bの自然な音質表現が注目されています。公式の例では、生成された音声が一貫性があり、自然で、長文を読み上げても90分間安定して出力でき、明らかに中断やスタイルの変化が見られないことが示されています。同時に、モデルは複数の役割を持つ音声シナリオをサポートし、一度の会話で最大4人のキャラクターの自然な会話を提示でき、長時間のコミュニケーションにおいてそれぞれ独自のトーン、リズム、ボイストーンの特徴を保持します。これはポッドキャスト、インタビュー、またはバーチャルホストのような場面に適しています。

感情表現において、モデルはテキストの意味を自動的に認識し、それに合った感情的なトーンを生成できます。怒り、謝罪、興奮などの微妙な変化も含み、音声が人間のようにより自然になります。また、VibeVoice-Realtime-0.5Bは安定した文脈記憶機能を持っており、長い発言の中でトーン、論理、速度を一貫して保つことができ、全体的な表現がより本物らしく、聴きやすくなります。

従来の大型音声モデルと比較すると、VibeVoice-Realtime-0.5Bの小さなサイズと低遅延の利点は特に際立っています。その軽量設計により、アプリケーションデバイスに直接埋め込むことが可能で、スマートアシスタント、対話システム、スマートハードウェアに、人間に近い即時の音声インタラクション体験を提供します。マイクロソフトは、VibeVoiceの公開によって、今後多くのアプリケーションで「口を開けばすぐに話す」AI音声の能力が実現される予定であると述べています。

URL:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B