谷歌發佈最強TTS模型，支持近 70 種語言

谷歌近日在Gemini3.1系列中正式推出全新文字轉語音模型Gemini-TTS，官方給出的定位直接而自信:"至今最富表現力的文本轉語音解決方案"。

這款模型最核心的突破，在於把語音的"控制權"真正交給了開發者。以往的TTS產品，生成出來的聲音往往千篇一律，語氣平、節奏死、情緒單薄。Gemini-TTS則支持通過提示詞直接調控語音的情感、節奏和風格——旁白需要低沉莊重，對話需要輕鬆自然，停頓落在哪裏、情緒如何起伏，都可以用語言描述來精確控制。聽感上的自然度和細膩程度，比過去的同類產品上了一個臺階。

多語言支持方面，Gemini-TTS覆蓋約70種語言，中文普通話、英語、西班牙語、日語等主流語種均在列。更省心的是，模型可以自動識別輸入文本的語種，無需開發者手動標註，直接生成對應語言的語音輸出。對於需要服務全球用戶的企業來說，這意味着一套API就能搞定多語種內容的語音化需求，有聲讀物、播客、客服機器人、教育應用都是直接受益的場景。

谷歌還特別強調了Gemini-TTS與同系列音頻模型的協同能力。在實時對話、語音翻譯和多模態交互場景中，系統可以在保持低延遲的同時，通過文本提示和音頻標記對語音輸出進行精細調控，讓AI在電話、會議、導航等實際使用場景中聽起來更接近真實的人類交流。

語音，正在成爲AI下一個主戰場。谷歌這次出手，來勢不小。

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

一行GitHub公開代碼意外暴露Anthropic芯片佈局。AMD AI業務高管提交的代碼中，留下Anthropic將作爲其客戶的痕跡。行業分析機構SemiAnalysis指出，這雖非官方披露，卻釋放出明確信號：Anthropic正主動拓寬算力供應鏈，不再依賴單一芯片供應商。

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"

Ollama憑藉一行命令在本地運行開源大模型，讓開發者擺脫API密鑰與天價賬單。7月9日其宣佈完成8800萬美元融資，由Benchmark的Peter Fenton、Theory Ventures的Tomasz Tunguz及8VC的Alex Kolicich共同領投，Docker創始人Solomon Hykes、ClickHouse CEO Aaron Katz、GIMP聯合創建人兼Cockroach Labs聯合創始人等參投。

BrowseComp被刷到90%後，美團LongCat甩出LoHoSearch：前沿模型集體跌回三成出頭

搜索智能體評測基準BrowseComp短期被“刷爆”，成績從30%飆到90%而逐漸失效。7月17日，美團LongCat發佈新基準LoHoSearch，基於含762萬實體的維基百科知識圖譜自動生成難題，意圖將評測重新推入高難度區，重設搜索智能體能力標尺。

谷歌發佈最強TTS模型，支持近 70 種語言

相關推薦

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

打破 15 秒魔咒：智象未來發布全球首個無限時長創作智能體vivago R1，商業可用率拉到85%

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"

DeepSeek V4正式版實測曝光，或於下週一發布劍指Kimi K3

BrowseComp被刷到90%後，美團LongCat甩出LoHoSearch：前沿模型集體跌回三成出頭