Adobe Research與西北大學聯合開發出一項突破性的AI系統Sketch2Sound,該技術能將簡單的人聲模仿和文字描述轉化爲專業級音效,有望徹底改變聲音設計行業的工作方式。
該系統會分析語音輸入的三個關鍵元素:響度、音色(決定聲音的明亮程度)和音調。然後,系統會將這些特徵與文本描述相結合,生成所需的聲音。
視頻:García 等人,Adobe Research
Sketch2Sound 的有趣之處在於它能夠理解上下文。例如,如果有人輸入“森林氛圍”併發出短促的聲音,系統會自動識別出這些聲音應該是鳥叫聲 - 而無需特定指令。
同樣的智能也適用於音樂。在創建鼓點模式時,用戶可以輸入“低音鼓、小軍鼓”,然後使用低音和高音哼唱節奏。系統會自動將低音鼓放在低音上,將小軍鼓放在高音上。
爲專業人士提供精細控制
研究團隊內置了特殊的過濾技術,讓用戶可以調整控制生成聲音的精確度。聲音設計師可以根據自己的需求選擇精確、細緻的控制或更輕鬆、近似的方法。
這種靈活性使得 Sketch2Sound 對於擬音師(爲電影和電視節目製作音效的專業人士)來說特別有價值。他們無需操縱物理對象來發出聲音,而是可以通過語音和文本描述更快地創建效果。
研究人員指出,輸入錄音的空間音頻特性有時會以不想要的方式影響生成的聲音,但他們正在努力解決這個問題。Adobe 尚未宣佈 Sketch2Sound 何時或是否會成爲商業產品。