Google發佈Gemini2.5Flash與Pro文本轉語音預覽模型,全面替代今年5月舊版系統。新模型主打「情緒級」表達、上下文自適應節奏及24語種多角色對話,開發者現可在Google AI Studio與Playground免費測試,預計2025年Q1進入生產環境。

情緒級表達:從「歡快樂觀」到「陰鬱嚴肅」一鍵切換
- 風格響應:對「歡快樂觀」「陰鬱嚴肅」等提示詞即時調整音色與語速
- 用例:有聲書、遊戲NPC、本地化課件,避免傳統TTS機械感
- 演示:Synergy Intro應用可實時體驗多風格切換,輸出即專業配音
節奏自適應:上下文感知快慢,敘事更生動
- 機制:複雜解釋自動放緩,興奮段落加速,支持「慢條斯理懸疑→急促驚險」動態變化
- 示例:神祕小說朗讀可隨劇情逐步加速,轉折「咔嗒」一聲實現張力釋放
- 適用:產品教程、營銷視頻,告別單調朗讀
多角色+24語種:跨語種一致,角色不串線
- 功能:多說話者身份鎖定,對話交接自然過渡
- 語言:覆蓋英、法、德、日、印地語等24種,保留原音調與風格
- 演示:Voices from History應用實現英-多語種混用歷史對話,角色個性穩定
行業反饋:訂閱率+20%,成本-20%
- 音頻平臺:集成後多說話者模式受追捧,訂閱率+20%,首月流失率-20%,運營成本-20%
- 內容工作室:英/印地語漫畫配音角色一致性獲贊,沉浸感顯著提升
- 平臺計劃:2025年Q1推出低延遲Flash版與高質量Pro版並行,滿足實時與精品雙需求
下一步:低延遲Flash+精品Pro雙線並行
Google表示,2025年Q1將並行優化低延遲Flash版(<300ms首包)與高質量Pro版(48kHz採樣),並開放邊緣節點部署,目標滲透播客、互動遊戲、虛擬主播等實時場景。AIbase將持續跟蹤其邊緣節點部署及付費模式更新。
官網地址:https://x.com/GoogleAIStudio/status/1998876411734692107
