グーグルはこのほど、Gemini3.1シリーズに新たにテキストから音声への変換モデル「Gemini-TTS」を正式リリースしました。公式の定位は直接的で自信に満ちており、「これまでで最も表現力のあるテキストから音声へのソリューション」としています。
このモデルの最も重要な突破点は、音声の「コントロール権」を実際に開発者に委ねたことです。これまでのTTS製品では、生成される音声がどれも同じようなものになりがちで、トーンが平坦で、リズムが死んでいて、感情が単調でした。それに対してGemini-TTSは、プロンプトを使って音声の感情、リズム、スタイルを直接調整できるようになっています。ナレーションが必要な場合は低く重い雰囲気、会話が必要な場合は自然で軽やかな雰囲気など、停止する場所や感情の上下動を言葉で正確に制御できます。聴感の自然さと細かさは、過去の類似製品よりも一段階進化しています。

多言語対応に関しては、Gemini-TTSは約70の言語をカバーしており、中国語の普通話、英語、スペイン語、日本語などの主要な言語が含まれています。さらに使い勝手が良いのは、モデルが入力テキストの言語を自動的に識別し、開発者が手動でラベルを付ける必要がないことです。直接、対応言語の音声出力を生成できます。グローバルユーザーにサービスを提供したい企業にとって、これは一度のAPIで複数言語のコンテンツの音声化を実現できることを意味します。オーディオブック、ポッドキャスト、カスタマーサポートロボット、教育アプリなどが直接恩恵を受けるシナリオです。
グーグルは特に、Gemini-TTSが同シリーズの音声モデルとの協働能力にも注目しています。リアルタイムでの会話、音声翻訳、マルチモーダルなインタラクションのシーンにおいて、システムは低遅延を維持しながら、テキストプロンプトと音声タグを通じて音声出力を詳細に調整できます。これにより、AIが電話、会議、ナビゲーションなどの実際の使用状況で人間の会話のように聞こえるようになります。
音声は、AIの次の主戦場となっています。グーグルが今回の動きを見せたことで、その勢いはかなり大きいです。
