谷歌近日在Gemini3.1系列中正式推出全新文字轉語音模型Gemini-TTS,官方給出的定位直接而自信:"至今最富表現力的文本轉語音解決方案"。

這款模型最核心的突破,在於把語音的"控制權"真正交給了開發者。以往的TTS產品,生成出來的聲音往往千篇一律,語氣平、節奏死、情緒單薄。Gemini-TTS則支持通過提示詞直接調控語音的情感、節奏和風格——旁白需要低沉莊重,對話需要輕鬆自然,停頓落在哪裏、情緒如何起伏,都可以用語言描述來精確控制。聽感上的自然度和細膩程度,比過去的同類產品上了一個臺階。

image.png

多語言支持方面,Gemini-TTS覆蓋約70種語言,中文普通話、英語、西班牙語、日語等主流語種均在列。更省心的是,模型可以自動識別輸入文本的語種,無需開發者手動標註,直接生成對應語言的語音輸出。對於需要服務全球用戶的企業來說,這意味着一套API就能搞定多語種內容的語音化需求,有聲讀物、播客、客服機器人、教育應用都是直接受益的場景。

谷歌還特別強調了Gemini-TTS與同系列音頻模型的協同能力。在實時對話、語音翻譯和多模態交互場景中,系統可以在保持低延遲的同時,通過文本提示和音頻標記對語音輸出進行精細調控,讓AI在電話、會議、導航等實際使用場景中聽起來更接近真實的人類交流。

語音,正在成爲AI下一個主戰場。谷歌這次出手,來勢不小。