最近,來自上海交通大學、劍橋大學和吉利汽車研究院的研究團隊推出了一種全新的文本到語音(TTS)系統,名爲 F5-TTS。這種系統的特別之處在於,它採用了一種無自迴歸的方法,結合了流匹配與擴散變換器(DiT),成功簡化了傳統 TTS 模型中的複雜步驟。

image.png

大家都知道,傳統的 TTS 模型往往需要進行復雜的持續時間建模、音素對齊和專門的文本編碼,這些都增加了合成過程的複雜性。尤其是以往的模型如 E2TTS,常常面臨着收斂速度慢和文本與語音對齊不準確的問題,這讓它們在現實場景中很難高效應用。而 F5-TTS 的出現,正是爲了解決這些挑戰。

F5-TTS 的工作原理很簡單,首先將輸入的文本通過 ConvNeXt 架構進行處理,使其更容易與語音進行對齊。然後,經過填充的字符序列與輸入語音的噪聲版本一起被輸入到模型中。

該系統的訓練依賴於 Diffusion Transformer(DiT),通過流匹配有效地將簡單的初始分佈映射到數據分佈上。此外,F5-TTS 還創新性地引入了推理時的 Sway Sampling 策略,這一策略可以在推理階段優先處理早期的流步驟,從而提高生成語音與輸入文本的對齊效果。

根據研究成果,F5-TTS 在合成質量和推理速度上都超越了許多當前的 TTS 系統。在 LibriSpeech-PC 數據集上,該模型的字錯誤率(WER)達到了2.42,並且在推理時的實時因子(RTF)爲0.15,顯著優於之前的擴散模型 E2TTS,後者在處理速度和魯棒性上存在短板。

image.png

同時,Sway Sampling 策略顯著提升了生成語音的自然度和可懂性,使得模型在無訓練的情況下也能實現流暢且富有表現力的生成。

F5-TTS 通過簡化流程,消除了對持續時間預測、音素對齊和明確文本編碼的需求,提高了對齊的魯棒性和合成質量。此外,研究人員還強調了倫理考量,提出需建立水印和檢測系統,以防止該模型被濫用。

項目入口:https://github.com/SWivid/F5-TTS

劃重點:

🌟 F5-TTS 是一種新型無自迴歸文本到語音系統,簡化了傳統 TTS 模型的複雜性。  

⚡ 該系統利用 ConvNeXt 和 DiT 架構,提高了文本與語音的對齊效果,顯著提升了合成質量。  

🔒 研究人員強調需關注倫理問題,建議引入水印和檢測機制,防止潛在的濫用。