GoogleはGemini2.5FlashとProのテキストから音声への変換プレビューモデルをリリースし、今年5月の旧システムを全面的に置き換えました。新しいモデルは「感情レベル」の表現、文脈に応じたリズムの適応、および24言語で多役の会話が特徴です。開発者は現在、Google AI StudioとPlaygroundで無料でテストできます。2025年第1四半期に本番環境へ導入される予定です。

image.png

感情レベルの表現:「明るく楽観的」から「暗く厳粛」までワンタッチで切り替え 

- パターンレスポンス:「明るく楽観的」「暗く厳粛」などの指示語に対して即座に声質や速度を調整  

- 事例:オーディオブック、ゲームのNPC、ローカライズされた教材など、従来のTTSの機械的な感覚を回避  

- 演示:Synergy Introアプリでリアルタイムで多様なスタイルの切り替えを体験でき、出力はプロのナレーションになります

リズムの自動調整:文脈を感知して速さを変化させ、物語がより生き生きと  

- 機制:複雑な説明では自動的に遅くなり、興奮する部分では早くなります。「ゆっくりとしたミステリー→急促なサスペンス」のようなダイナミックな変化に対応しています  

- 例:謎の小説の朗読では、ストーリーに合わせて徐々に早くなり、転換時に「カチン」という音で緊張感を解放します  

- 適用:製品チュートリアル、マーケティング動画などで、退屈な読み上げを避けます

多役+24言語:異言語間での一貫性、役割が混ざらない  

- 機能:複数の話し手の身分をロックし、会話の移行が自然になります  

- 言語:英語、フランス語、ドイツ語、日本語、ヒンディー語など24言語をカバーし、元のトーンとスタイルを保持します  

- 演示:Voices from Historyアプリで英語と多言語の混合使用が可能で、歴史的な会話を実現し、役割の個性が安定しています

業界からのフィードバック:登録率+20%、コスト-20%  

- オーディオプラットフォーム:統合後、複数の話し手モードが人気となり、登録率は+20%、初月の流失率は-20%、運用コストは-20%になりました  

- コンテンツスタジオ:英語/ヒンディー語のコミックの吹き替えで役割の一貫性が称賛され、没入感が大幅に向上しました  

- プラットフォーム計画:2025年第1四半期には低遅延のFlash版と高品質なPro版を並行してリリースし、リアルタイムと高品質の両方のニーズに応えます

次段階:低遅延のFlash版と高品質のPro版の二線作戦  

Googleは、2025年第1四半期に低遅延のFlash版(初期パケットの遅延<300ms)と高品質なPro版(48kHzサンプリング)を同時に最適化し、エッジノードの展開を開放する予定です。目的はポッドキャスト、インタラクティブゲーム、バーチャルアーティストなどのリアルタイムシーンへの浸透です。AIbaseはエッジノードの展開と課金モデルの更新を継続して追跡します。

公式サイト:https://x.com/GoogleAIStudio/status/1998876411734692107