清華大學的研究團隊近日發佈了名爲 SonicSim 的移動音源仿真平臺,旨在解決當前語音處理領域在移動聲源場景下數據缺乏的難題。 

這一平臺基於 Habitat-sim 仿真平臺構建,能夠高度逼真地模擬真實世界的聲學環境,爲語音分離和增強模型的訓練和評估提供更優質的數據支持。

現有的語音分離和增強數據集大多基於靜態聲源,難以滿足移動聲源場景下的需求。 

雖然現實世界中也存在一些真實錄制的數據集,但其規模有限,且採集成本高昂。相比之下,合成數據集雖然規模更大,但其聲學模擬的真實性往往不足,難以準確反映真實環境中的聲學特徵。

image.png

SonicSim 平臺的出現有效解決了上述問題。 該平臺能夠模擬各種複雜的聲學環境,包括障礙物遮擋、房間幾何形狀以及不同材料對聲音的吸收、反射和散射特性等,並支持用戶自定義場景佈局、聲源和麥克風位置、麥克風類型等參數。

image.png

基於 SonicSim 平臺,研究團隊還構建了一個名爲 SonicSet 的大型多場景移動音源數據集。 

該數據集使用了來自 LibriSpeech、Freesound Dataset50k 和 Free Music Archive 的語音和噪聲數據,以及90個來自 Matterport3D 數據集的真實場景,包含了豐富的語音、環境噪聲和音樂噪聲數據。 

SonicSet 數據集的構建過程高度自動化,能夠隨機生成聲源和麥克風的位置以及聲源的運動軌跡,確保了數據的真實性和多樣性。

image.png

爲了驗證 SonicSim 平臺和 SonicSet 數據集的有效性,研究團隊在語音分離和語音增強任務上進行了大量的實驗。 

結果表明,在 SonicSet 數據集上訓練的模型在真實世界錄製的數據集上取得了更優異的性能,證明了 SonicSim 平臺能夠有效模擬真實世界的聲學環境,爲語音處理領域的研究提供了強有力的支持。

SonicSim 平臺和 SonicSet 數據集的發佈,爲語音處理領域的研究帶來了新的突破。 隨着仿真工具的不斷改進和模型算法的優化,未來將進一步推動語音處理技術在複雜環境中的應用。

 然而,SonicSim 平臺的真實性仍然受到3D 場景建模細節的限制。 當導入的3D 場景存在缺失或不完整結構時,平臺無法準確模擬當前環境中的混響效果。

論文地址:https://arxiv.org/pdf/2410.01481