在最近的開發更新中,谷歌更新了 Gemini2.5版本,標誌着 AI 音頻對話和生成技術的重大進步。Gemini2.5是一個多模態的 AI 系統,能夠原生理解和生成文本、圖像、音頻、視頻和代碼,提升了用戶與 AI 的互動體驗。

image.png

Gemini2.5的實時音頻對話功能使得人機交流變得更加自然。人類的對話往往涉及語調、口音以及非語言的聲音(如笑聲),這些細節都能通過 Gemini 的音頻生成技術得到體現。其低延遲的特點使得交流流暢自然,用戶可以通過自然語言調整對話的風格,如選擇不同的口音和語氣,甚至可以選擇耳語的方式進行交流。

實時音頻對話

人類的對話豐富而細膩,表達的意義不僅依賴於說出的話,還體現在語氣、口音及非語言的聲音,如笑聲。Gemini2.5旨在通過音頻實現高效、實時的交流,其音頻對話功能包括:

  • 自然對話 :提供高質量的語音交互,展現出適當的表現力和韻律,使得對話流暢自然,延遲極低。
  • 風格控制 :用戶可以通過自然語言提示,自定義對話的語調、口音及情感表達,甚至可以進行耳語。
  • 工具集成 :在對話過程中,Gemini2.5可以調用工具和函數,實時獲取來自 Google 搜索等源的信息,增強對話的實用性。
  • 對話上下文感知 :該系統能夠識別並忽略背景噪聲和無關對話,確保在適當時機作出響應。
  • 音視頻理解 :支持實時音頻和視頻流,能夠與用戶討論視頻內容或屏幕共享的信息。
  • 多語言支持 :支持24種以上的語言,能夠在同一對話中靈活切換語言。
  • 情感對話 :根據用戶的語調做出反應,理解不同表達方式的情感差異。
  • 高級思維對話 :憑藉推理能力,提升對話的連貫性與智能性,特別在複雜問題上表現更佳。

可控文本轉語音技術

Gemini2.5的文本轉語音(TTS)技術迎來了新突破,用戶不僅可以生成自然的語音輸出,還能對音頻進行前所未有的控制。用戶可以生成從短語到長篇敘述的內容,精確掌控風格、語調、情感和表現,所有這些均可通過自然語言提示進行調整。

  • 動態表現 :可對文本進行生動的朗讀,適用於詩歌、新聞播報及故事講述,支持特定情感和口音的演繹。
  • 速度與發音控制 :用戶可以控制語音的速度,並確保特定詞彙的準確發音。
  • 多說話人對話生成 :能夠根據文本輸入生成雙人對話音頻,使內容更具吸引力。
  • 多語言音頻生成 :輕鬆生成多語言音頻內容,支持24種語言。

在 Gemini2.5的開發過程中,谷歌對潛在風險進行了全面評估,並採取了相應的緩解策略。所有音頻輸出均嵌入了名爲 SynthID 的水印技術,以確保 AI 生成音頻的透明性和可識別性。

Gemini2.5爲開發者提供了豐富的原生音頻功能,允許他們通過 Google AI Studio 或 Vertex AI 的 Gemini API,構建更具互動性的應用。開發者可以在 Google AI Studio 的流選項卡中試用 Gemini2.5Flash 預覽的原生音頻對話,或選擇可控的文本轉語音生成,推動公告、故事、播客及視頻遊戲等應用的音頻創新。