Gemini2.5版本發佈原生音頻功能，AI 對話更加自然

在最近的開發更新中，谷歌更新了 Gemini2.5版本，標誌着 AI 音頻對話和生成技術的重大進步。Gemini2.5是一個多模態的 AI 系統，能夠原生理解和生成文本、圖像、音頻、視頻和代碼，提升了用戶與 AI 的互動體驗。

Gemini2.5的實時音頻對話功能使得人機交流變得更加自然。人類的對話往往涉及語調、口音以及非語言的聲音（如笑聲），這些細節都能通過 Gemini 的音頻生成技術得到體現。其低延遲的特點使得交流流暢自然，用戶可以通過自然語言調整對話的風格，如選擇不同的口音和語氣，甚至可以選擇耳語的方式進行交流。

實時音頻對話

人類的對話豐富而細膩，表達的意義不僅依賴於說出的話，還體現在語氣、口音及非語言的聲音，如笑聲。Gemini2.5旨在通過音頻實現高效、實時的交流，其音頻對話功能包括:

自然對話 :提供高質量的語音交互，展現出適當的表現力和韻律，使得對話流暢自然，延遲極低。
風格控制 :用戶可以通過自然語言提示，自定義對話的語調、口音及情感表達，甚至可以進行耳語。
工具集成 :在對話過程中，Gemini2.5可以調用工具和函數，實時獲取來自 Google 搜索等源的信息，增強對話的實用性。
對話上下文感知 :該系統能夠識別並忽略背景噪聲和無關對話，確保在適當時機作出響應。
音視頻理解 :支持實時音頻和視頻流，能夠與用戶討論視頻內容或屏幕共享的信息。
多語言支持 :支持24種以上的語言，能夠在同一對話中靈活切換語言。
情感對話 :根據用戶的語調做出反應，理解不同表達方式的情感差異。
高級思維對話 :憑藉推理能力，提升對話的連貫性與智能性，特別在複雜問題上表現更佳。

可控文本轉語音技術

Gemini2.5的文本轉語音（TTS）技術迎來了新突破，用戶不僅可以生成自然的語音輸出，還能對音頻進行前所未有的控制。用戶可以生成從短語到長篇敘述的內容，精確掌控風格、語調、情感和表現，所有這些均可通過自然語言提示進行調整。

動態表現 :可對文本進行生動的朗讀，適用於詩歌、新聞播報及故事講述，支持特定情感和口音的演繹。
速度與發音控制 :用戶可以控制語音的速度，並確保特定詞彙的準確發音。
多說話人對話生成 :能夠根據文本輸入生成雙人對話音頻，使內容更具吸引力。
多語言音頻生成 :輕鬆生成多語言音頻內容，支持24種語言。

在 Gemini2.5的開發過程中，谷歌對潛在風險進行了全面評估，並採取了相應的緩解策略。所有音頻輸出均嵌入了名爲 SynthID 的水印技術，以確保 AI 生成音頻的透明性和可識別性。

Gemini2.5爲開發者提供了豐富的原生音頻功能，允許他們通過 Google AI Studio 或 Vertex AI 的 Gemini API，構建更具互動性的應用。開發者可以在 Google AI Studio 的流選項卡中試用 Gemini2.5Flash 預覽的原生音頻對話，或選擇可控的文本轉語音生成，推動公告、故事、播客及視頻遊戲等應用的音頻創新。

Gemini2.5版本發佈原生音頻功能，AI 對話更加自然

實時音頻對話

可控文本轉語音技術

相關推薦

AI 賦能藍領！谷歌投資千萬美元資助美國製造業：惠及 4 萬名從業者

谷歌推出 Veo 3.1 Lite 視頻模式：Ultra 訂閱用戶可免積分無限生成

谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響

谷歌擬建 933 兆瓦天然氣電廠，以支撐龐大的 AI 數據中心運轉

谷歌發佈Gemma4 開源模型：採用Apache許可證徹底釋放開發者生產力

Gemini2.5版本發佈原生音頻功能，AI 對話更加自然

實時音頻對話

可控文本轉語音技術

相關推薦

AI 賦能藍領！谷歌投資千萬美元資助美國製造業：惠及 4 萬名從業者

谷歌推出 Veo 3.1 Lite 視頻模式：Ultra 訂閱用戶可免積分無限生成

​谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響

谷歌擬建 933 兆瓦天然氣電廠，以支撐龐大的 AI 數據中心運轉

谷歌發佈Gemma4 開源模型：採用Apache許可證徹底釋放開發者生產力

谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響