用一段簡單的哼唱、一段節奏的敲擊,就能讓AI生成一段高品質的音樂或音效,這不再是幻想。一項名爲Sketch2Sound的創新研究成果,展示了一種全新的AI模型,它可以通過聲音模仿和文本提示來生成高質量的音頻,爲聲音創作領域帶來了革命性的突破。

image.png

Sketch2Sound的核心技術在於,它能夠從任何聲音模仿(如人聲模仿或參考聲音)中提取出三個關鍵的、隨時間變化的控制信號:響度、亮度(頻譜質心)和音高。這些控制信號被編碼後,會被添加到用於文本到聲音生成的潛在擴散模型中,從而引導AI生成符合特定要求的聲音。

這項技術最令人稱道的地方在於它的輕量化和高效性。Sketch2Sound建立在現有的文本到音頻潛在擴散模型之上,只需進行4萬步的微調,並且每個控制信號僅需一個線性層,相比其他方法(如ControlNet)更加簡潔高效。爲了讓模型能夠從“草圖”般的聲音模仿中進行合成,研究人員在訓練過程中還對控制信號應用了隨機中值濾波器,使其能夠適應具有靈活時間特性的控制信號。實驗結果表明,Sketch2Sound不僅能合成出符合輸入控制信號的聲音,還能保持對文本提示的遵從,並達到與純文本基線相當的音頻質量。

Sketch2Sound爲聲音藝術家提供了一種全新的創作方式。他們可以利用文本提示的語義靈活性,結合聲音姿態或模仿的表達性和精確性,來創造出前所未有的聲音作品。這類似於傳統Foley藝術家通過操作物體來製造音效,而Sketch2Sound則通過聲音模仿來引導聲音生成,爲聲音創作帶來了“人性化”的觸感,提高了聲音作品的藝術價值。

與傳統的文本到音頻交互方式相比,Sketch2Sound能夠克服其侷限性。以往,聲音設計師需要花費大量時間調整生成聲音的時間特性,使其與視覺效果同步,而Sketch2Sound則可以通過聲音模仿來自然地實現這種同步,並且不僅僅侷限於人聲模仿,任何類型的聲音模仿都可以用來驅動這個生成模型。

研究人員還開發了一種技術,通過在訓練過程中應用不同窗口大小的中值濾波器來調整控制信號的時間細節。這使得聲音藝術家能夠控制生成模型對控制信號時間精確度的遵循程度,從而提高那些難以完美模仿的聲音的質量。在實際應用中,用戶可以通過調整中值濾波器的大小,在嚴格遵守聲音模仿和保證音頻質量之間找到平衡。

Sketch2Sound的工作原理是,首先從輸入音頻信號中提取響度、頻譜質心和音高三個控制信號。然後,將這些控制信號與文本到聲音模型中的潛在信號對齊,並通過簡單的線性投影層調節潛在擴散模型,最終生成符合要求的聲音。實驗結果顯示,通過時變控制信號調節模型可以顯著提高對該信號的遵守度,同時對音頻質量和文本遵從度的影響微乎其微。

值得一提的是,研究人員還發現,控制信號可以操縱生成信號的語義。例如,在使用文本提示“森林氛圍”時,如果在聲音模仿中加入隨機的響度爆發,模型就可以在這些響度爆發中合成鳥鳴聲,而無需額外提示“鳥類”,這表明模型已經學會了響度爆發和鳥類存在之間的關聯。

當然,Sketch2Sound也存在一些侷限性,例如質心控制可能會將輸入聲音模仿的房間音調融入到生成的音頻中,這可能是因爲當輸入音頻中沒有聲音事件時,房間音調是由質心編碼的。

總而言之,Sketch2Sound是一個強大的生成聲音模型,它可以通過文本提示和時變控制(響度、亮度、音高)來生成聲音。它能夠通過聲音模仿和“草圖”式控制曲線來生成聲音,並且具有輕量化、高效率的特點,爲聲音藝術家提供了一種可控、姿態化和富有表現力的工具,能夠生成具有靈活時間特性的任意聲音,未來在音樂創作、遊戲音效設計等領域具有廣闊的應用前景。

論文地址:https://arxiv.org/pdf/2412.08550