マイクロソフトは静かに「注目度の高い」リアルタイム音声モデルであるVibeVoice-Realtime-0.5Bをオープンソース化しました。これは、現在世界で最も遅延が少なく、人間のように自然なテキストから音声への変換(TTS)モデルの一つかもしれません。話が終わる前に、すでに音声が始まるのです!

image.png

 極限のリアルタイム:300ミリ秒で話し始められる

VibeVoice-Realtime-0.5Bの最も強力な能力は「ほぼゼロの遅延」です。テキスト入力から最初の発声までの平均時間はわずか300ミリ秒であり、従来のTTSが通常1〜3秒かかるのとは比べものになりません。実際に体験すると、まるで本物の人間との会話のように感じられます。あなたがタイプしている間に、相手がすでに返答を始めているのです。まるで「生成してから再生する」ような遅延感はありません。

 長文にも対応:90分の滑らかな音声を一度に生成

モデルのパラメータ数は0.5Bと少ないですが、これにより90分間の超長音声を一度に生成でき、途中で速度が落ちたり、ノイズが混じったり、繰り返しになることなく、語調の起伏が非常に自然でプロのナレーターのように聞こえます。現在HuggingFaceで実証テストが行われており、ユーザーは『三体』の第一章を丸ごと投入して、完全に読み上げた結果、ノイズもなく問題ありません。

image.png

 多キャラクター対話の神器:4人のパーソナリティも完璧に再現

このモデルは最大4つのキャラクターが同時に会話をすることをサポートしており、それぞれのキャラクターは独立した声質、話すスピード、トーンを保つことができます。例えば、ラジオ番組のインタビュー場面をシミュレートする場合:ホストは落ち着いた声、ゲストAは興奮した声、ゲストBはユーモラスな声、ゲストCはやや謝罪のようなトーンで、4人が順番に話すときには、お互いの声が混ざることなく、感情の切り替えもスムーズで、まるで「AIによる吹き替えチームの最高峰」と言えます。

 感情表現が充実:怒り、興奮、謝罪などの自動認識

内蔵された感情認識モジュールにより、VibeVoiceはテキストの意味に基づいて自動的に適切な感情を追加します:

- 「ごめんね」という言葉を見ると、自然に謝罪のトーンになります

- 「すごい!」という言葉に出会うと、すぐに明るく元気になります

- たった一言「私は怒っている」というのも、声を低くし、話す速度を速くします

感情タグを手動で指定する必要は一切ありません。開封してすぐに使えるのです。

 中国語・英語の両方に対応:中国語は進歩していますがまだ改善の余地あり

このモデルは中国語と英語の混読をサポートしており、英語の表現は商用レベルに近いほどです。中国語の発音は正確で自然度が高く、ただし一部の複数音字や軽声語の処理には改善の余地があります。公式によると、今後専用の中国語調整バージョンがリリースされる予定です。

 軽量設計:スマートフォンやエッジデバイスにも簡単に収まる

パラメータ数はわずか0.5Bで、推論時に必要なメモリは2GB未満です。一般的なノートPCでもリアルタイムの速度で動作できます。開発者たちはすでにこれをローカルAIアシスタント、リーディングアプリ、リアルタイム通訳ツールに迅速に統合しています。今後は「AIのローカル音声の標準」になることが期待されています。

現在、VibeVoice-Realtime-0.5BはHuggingFaceとGitHubで完全にオープンソース化されており(MITライセンス)、商用利用も可能です。コミュニティでは多くのデモが作成され、ある人はこれを「タイプしながら読み上げる」微信の音声入力のための魔法のようなツールとして使い、ある人は大規模なモデルに接続して、本格的な全フローのリアルタイム音声会話を実現しています。

AIbase報道の評価:  

オープンソース界が10B以上の巨大なTTSモデルを競い合っている中、マイクロソフトは0.5Bの小さなモデルで「リアルタイム、自然、長文、多キャラクター」すべてを商用レベルに近づけてしまいました。このような行動はまさに「次元を下げる攻撃」です。これからは、国内の大手企業がどう対応するのか見ものです。

プロジェクトアドレス:https://microsoft.github.io/VibeVoice/