在實時通信的世界裏,無論是電話還是視頻會議,聲音都是我們表達自我的重要工具。但你有沒有想過,如果我們能在不影響語言內容和韻律的情況下,實時改變說話者的聲音音色,那會怎樣?StreamVC技術的出現,讓我們能夠做到這一點。

StreamVC是一項創新的聲音轉換解決方案,它能夠在保持源語音內容和韻律的同時,匹配目標語音的音色。與傳統方法不同,StreamVC在輸入信號上以低延遲產生結果波形,甚至在移動平臺上也能實現,使其適用於實時通信場景,如電話和視頻會議,以及這些場景中的聲音匿名化。

技術亮點:

實時性:StreamVC能夠在移動設備上實現70.8毫秒的低延遲推理。

高質量語音合成:利用SoundStream神經音頻編解碼器的架構和訓練策略,實現輕量級高質量的語音合成。

音高穩定性:通過引入白化基頻(f0)信息,提高音高一致性,而不泄露源說話者音色信息。

image.png

StreamVC的設計靈感來源於Soft-VC和SoundStream。它使用HuBERT模型提取的離散語音單元作爲內容編碼器網絡的預測目標。內容編碼器和解碼器的架構以及訓練策略都採用了SoundStream神經音頻編解碼器的設計,以實現高質量的因果音頻合成。

StreamVC在多個基準測試中與現有技術進行了比較,包括自然度、可理解性、說話者相似度和音高一致性。實驗結果顯示,StreamVC在保持源語言的音調方面表現出色,且在說話者相似度方面也能與經過微調的模型相媲美。

StreamVC證明了在移動設備上以低延遲進行高效的聲音轉換是完全可行的。HuBERT衍生的軟語音單元可以通過可流式傳輸的因果卷積神經網絡架構學習得到,向解碼器注入白化f0信息對於提供高質量的輸出至關重要。

論文地址:https://arxiv.org/pdf/2401.03078