Google發佈Gemini2.5Flash與Pro文本轉語音預覽模型,全面替代今年5月舊版系統。新模型主打「情緒級」表達、上下文自適應節奏及24語種多角色對話,開發者現可在Google AI Studio與Playground免費測試,預計2025年Q1進入生產環境。

image.png

情緒級表達:從「歡快樂觀」到「陰鬱嚴肅」一鍵切換  

- 風格響應:對「歡快樂觀」「陰鬱嚴肅」等提示詞即時調整音色與語速  

- 用例:有聲書、遊戲NPC、本地化課件,避免傳統TTS機械感  

- 演示:Synergy Intro應用可實時體驗多風格切換,輸出即專業配音

節奏自適應:上下文感知快慢,敘事更生動  

- 機制:複雜解釋自動放緩,興奮段落加速,支持「慢條斯理懸疑→急促驚險」動態變化  

- 示例:神祕小說朗讀可隨劇情逐步加速,轉折「咔嗒」一聲實現張力釋放  

- 適用:產品教程、營銷視頻,告別單調朗讀

多角色+24語種:跨語種一致,角色不串線  

- 功能:多說話者身份鎖定,對話交接自然過渡  

- 語言:覆蓋英、法、德、日、印地語等24種,保留原音調與風格  

- 演示:Voices from History應用實現英-多語種混用歷史對話,角色個性穩定

行業反饋:訂閱率+20%,成本-20%  

- 音頻平臺:集成後多說話者模式受追捧,訂閱率+20%,首月流失率-20%,運營成本-20%  

- 內容工作室:英/印地語漫畫配音角色一致性獲贊,沉浸感顯著提升  

- 平臺計劃:2025年Q1推出低延遲Flash版與高質量Pro版並行,滿足實時與精品雙需求

下一步:低延遲Flash+精品Pro雙線並行  

Google表示,2025年Q1將並行優化低延遲Flash版(<300ms首包)與高質量Pro版(48kHz採樣),並開放邊緣節點部署,目標滲透播客、互動遊戲、虛擬主播等實時場景。AIbase將持續跟蹤其邊緣節點部署及付費模式更新。

官網地址:https://x.com/GoogleAIStudio/status/1998876411734692107