Kyutai Unmute 發佈！10秒定製語音，AI對話進入超低延遲時代！

法國 AI 實驗室 Kyutai 近日推出了一款革命性的語音 AI 系統 Unmute，爲文本大語言模型（LLM）賦予了強大的語音交互能力。這款高度模塊化的語音模型以其智能對話、超低延遲和個性化定製功能引發業界熱議。AIbase 綜合整理最新信息，帶您深入瞭解 Unmute 的技術突破與應用前景。

模塊化設計:爲任何文本模型“加聲”

Unmute 的核心亮點在於其高度模塊化的架構。開發者無需重新訓練模型，只需將 Unmute “包裹”在現有文本大語言模型上，即可爲其快速添加語音輸入（語音轉文本，STT）和語音輸出(文本轉語音，TTS)功能。這種靈活的設計保留了文本模型的推理能力、知識儲備和精細調優特性，同時新增了自然流暢的語音交互體驗。

智能交互:對話更接近人類

Unmute 在對話體驗上實現了重大突破:

智能判斷與接話:Unmute 能夠精準判斷用戶是否完成發言，並在適當的時機進行迴應，模擬真實的人類對話節奏。

隨時打斷:用戶可以隨時打斷 AI 的回答，增強交互的靈活性和自然度。

文本流式合成:Unmute 支持在文本生成未完成時即開始語音合成，大幅降低響應延遲，爲實時對話提供了更順暢的體驗。

個性化定製:10秒打造專屬聲音

Unmute 的另一大創新是其強大的聲音定製功能。僅需10秒的語音樣本，即可生成高度個性化的 AI 聲音，滿足不同場景下的需求。無論是模擬特定角色的語氣，還是調整語音的音調、語速，Unmute 都能輕鬆實現，爲用戶提供多樣化的交互選擇。

開源計劃:賦能全球開發者

Kyutai 宣佈，Unmute 的相關模型和代碼將在未來幾周內完全開源。這一舉措將進一步推動語音 AI 技術的普及與創新，吸引全球開發者的關注。此前，Kyutai 推出的音頻原生模型 Moshi 就曾因其創新性引發熱議，而 Unmute 的模塊化設計無疑是 Kyutai 在語音 AI 領域的又一力作。

語音 AI 的新風向

Unmute 的發佈標誌着語音 AI 技術邁向了更高的靈活性和實用性。與傳統的音頻原生模型相比，Unmute 通過模塊化設計充分利用了成熟文本模型的優勢，解決了實時語音交互中的延遲和自然度問題。AIbase 認爲，Unmute 的推出不僅爲開發者提供了更便捷的語音 AI 解決方案，也爲教育、客服、娛樂等領域帶來了全新的交互可能性。

結語

Kyutai 的 Unmute 以其模塊化設計、智能交互和個性化定製功能，爲語音 AI 領域注入了新的活力。無論是超低延遲的對話體驗，還是即將開源的技術支持，Unmute 都展現了其顛覆行業的潛力。

體驗地址：https://unmute.sh/

Kyutai Unmute 發佈！10秒定製語音，AI對話進入超低延遲時代！

相關推薦

研究人員推出LPM1.0模型:實現單圖轉實時交互式數字人視頻

算力本地化：Speechify 推出原生 Windows 應用挑戰系統級聽寫

微軟開源前沿語音 AI 家族 VibeVoice：單次處理 90 分鐘多說話人對話，GitHub 迅速獲 27K Star

班加羅爾初創企業 Arrowhead 融資 300 萬美元拓展語音 AI 能力

巴黎AI語音公司Gradium獲7000萬美元融資

Kyutai Unmute 發佈！10秒定製語音，AI對話進入超低延遲時代！

相關推薦

研究人員推出LPM1.0模型:實現單圖轉實時交互式數字人視頻

算力本地化：Speechify 推出原生 Windows 應用挑戰系統級聽寫

微軟開源前沿語音 AI 家族 VibeVoice：單次處理 90 分鐘多說話人對話，GitHub 迅速獲 27K Star

​班加羅爾初創企業 Arrowhead 融資 300 萬美元 拓展語音 AI 能力

巴黎AI語音公司Gradium獲7000萬美元融資

班加羅爾初創企業 Arrowhead 融資 300 萬美元拓展語音 AI 能力