在科技迅猛發展的今天,語音合成技術也在進步,尤其恢復失去聲音領域。最近,谷歌研究人員們提出了一種名爲 “零樣本語音轉換(zero-shot voice transfer)” 的新技術項技術可以直接與最先進的文本語音(TTS)系統相結合,幫助那些因疾病事故失去聲音的人,找回他們的 “聲音記憶。

這項技術的核心在於 “零樣本” 能力,意味着我們不需要大量樣本就能實現語音轉換。也就是說,僅需幾秒鐘的參考音頻,即可實現聲音克隆,且支持合成跨語言的音頻。

“零樣本” 克隆聲音能力

研究團隊利用來自 VCTK 語音庫的音頻樣本,展示了這一技術的強大功能。比如,通過使用已經錄製好的普通話、英語和西班牙語等多語言的音頻系統可以模擬出這些語言的聲音特點,生成與原音接近的合成語音。

image.png

項目入口:https://google.github.io/tacotron/publications/zero_shot_voice_transfer/

令人驚的是,這種轉換限於一種語言,研究還展示了語言的能力,例如研究團隊用英語的聲音樣本來合成法語、德語甚至阿拉伯語的語音樣的表現讓人耳目一新。

爲了驗證技術的有效,研究人員進行了大量實驗,包括與具有特殊發音的說話者進行合作。他們通過僅僅 12 秒和 14 秒的音頻樣本,生成了類似的語音,充分證明了這一技術的強大適應性。

在測試中,研究人員將這項技術擴展到了六種不同語言,進一步展示了其靈活性和實用性。

支持多語言示例:

這項技術的推廣僅可以幫助失聲人士恢復聲音,還能爲跨語言交流了新的可能性提升了無障礙交流的效率和便利性。可以說,零樣本語音轉換技術的出現,將使我們的生活更加豐富彩,讓每個人都能在語言的海洋中暢遊,享受交流的樂趣。

劃重點  

🎤 ** 零本語音轉換技術:一種無需大量樣本的語音成技術,可幫助聲人士找回聲音。  

🌍 ** 語言能力 **:技術可以實現不同語言之間的聲音轉換,大豐富了語音交流的可能性。

🗣️ ** 特殊發音者的應用:通過短時間的聲音樣本,團隊成功合成特殊發音者的語,展示了技術的適應性與靈性。