在這個語言千奇百怪的世界裏,想要找到一個能說遍天下話的語音合成助手,是不是感覺比登天還難?別急,斯圖加特大學的學霸們放了個大招——ToucanTTS,一個能說超過7000種語言的文本轉語音(TTS)模型!

image.png

ToucanTTS,這個聽起來就很有活力的名字,背後是IMS的黑科技。它支持幾乎所有ISO-639-3標準語言,也就是說,理論上它能講的語言比你知道的還要多。這在全球範圍內的應用潛力,簡直是無限的。

核心功能:

  • 多語言支持: ToucanTTS支持幾乎所有ISO-639- 3 標準語言,理論上可覆蓋超過 7000 種語言,是目前支持語言種類最多的TTS模型。

  • 多種風格語音合成: 支持模擬不同說話人的節奏、重音和語調,提供風格多樣性和語音自定義。

  • 可控語音合成: 用戶可控制音調、語速、情感等語音參數,生成具有不同情感或風格的語音。

  • 高質量語音生成: 利用PyTorch框架和深度學習技術,確保語音生成的高保真度和自然性。

  • 人工編輯功能: 包含人類在環編輯功能,適用於文學研究和詩歌朗讀任務。

  • 自包含對齊器: 包含CTC和聲譜圖重建訓練的對齊器,提高語音合成精度和質量。

  • 數據預處理工具: 提供數據預處理工具,簡化訓練數據的準備工作。

一人千面,語音也能“變臉”

ToucanTTS不僅能說多種語言,還能模擬不同說話人的風格,無論是語調、重音還是節奏,都能輕鬆拿捏。這對於那些需要語音多樣性的應用來說,簡直是福音。

這個工具包還允許用戶控制語音的多個參數,比如音調、語速、情感等。想聽溫柔的安慰,還是激昂的鼓勵?ToucanTTS都能給你。

高質量語音,自然到就像真人在說話

利用PyTorch框架和深度學習技術,ToucanTTS生成的語音質量高到可以假亂真。端到端的訓練和推理,讓它處理複雜的語音合成任務也遊刃有餘。

ToucanTTS還有人類在環編輯功能,特別適合文學研究和詩歌朗讀。用戶可以根據自己的喜好,定製合成的語音,讓機器更懂你的心。

自包含對齊器,讓語音合成更精準

內置的對齊器,使用CTC和聲譜圖重建訓練,進一步提高了語音合成的精度和質量。

ToucanTTS還提供了一整套數據預處理工具,簡化了訓練數據的準備工作,讓語音合成更加高效。

項目地址:https://github.com/DigitalPhonetics/IMS-Toucan

在線演示:https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS