還在爲短視頻配音效抓耳撓腮?還在苦苦尋找合適的BGM卻總是差強人意?現在,字節跳動直接放出王炸級AI黑科技,一舉打破視頻創作的最後一道靜音魔咒!他們最新推出的SeedFoley音效生成模型,如同爲視頻注入了聲命之魂,只需輕輕一點,就能爲你的視頻智能匹配專業級音效,瞬間讓你的作品從默片變身有聲大片,效果堪稱驚豔!更令人振奮的是,這項AI音效神技已火速上線字節跳動旗下視頻創作平臺即夢,人人都能秒速體驗一鍵音效加持的神奇魔力!
SeedFoley究竟是如何做到如此聲入人心的?其核心奧祕在於它採用了革命性的端到端架構,如同一個精密的聲音魔術師,巧妙地融合了視頻的時空特徵與強大的擴散生成模型,實現了音效與視頻內容的高度同步和完美契合。簡單來說,SeedFoley首先會對視頻進行抽幀分析,就像給視頻做CT掃描一樣,提取出每一幀畫面的關鍵信息,再通過一個視頻編碼器深度解讀視頻內容,理解視頻中發生了什麼,然後將這些視頻理解投射到條件空間,爲後續的音效生成指明方向。在音效生成的高速公路上,SeedFoley採用了改進的擴散模型框架,如同擁有無限創意的聲音設計師,根據視頻內容,智能生成與之完美匹配的音效方案。
爲了讓AI更懂聲音的藝術,SeedFoley在訓練過程中還學習了大量的語音和音樂相關標籤,就像給AI配備了聲音百科全書,讓它能夠區分音效和非音效,實現更精準的音效生成。更厲害的是,SeedFoley還是一位全能選手,能夠處理各種長度的視頻輸入,無論你的視頻是幾秒的精彩瞬間,還是幾分鐘的完整故事,它都能輕鬆應對,並且在音效的準確性、同步性以及與視頻內容的匹配度上,都達到了行業領先水平。
SeedFoley的視頻編碼器也暗藏玄機,它採用了快慢特徵組合的獨門祕籍,在高幀率下捕捉視頻中細微的局部運動信息,就像鷹眼一樣精準捕捉動作細節,在低幀率下則着重提取視頻的語義信息,理解視頻的故事內核,快慢特徵雙劍合璧,既保留了關鍵的運動特徵,又有效降低了計算成本,實現了低功耗,高性能的完美平衡。
這種快慢結合的方式,讓SeedFoley能夠在低計算資源下,實現驚人的8fps幀級別視頻特徵提取,精準定位視頻中的每一個細微動作,最終通過Transformer結構融合快慢特徵,深度挖掘視頻的時空奧祕。爲了進一步提升訓練效果和效率,SeedFoley還巧妙地在一個批次中引入多個困難樣本,就像給AI設置了進階挑戰,顯著提升了語義對齊效果,同時使用了sigmoidloss而非softmaxloss,在更低的資源消耗下,實現了媲美大批次訓練的驚人效果。
在音頻表徵模型方面,SeedFoley同樣別出心裁。與傳統的VAE模型通常採用梅爾頻譜(mel-spectrum)作爲音頻特徵編碼不同,SeedFoley大膽採用了原始波形(rawwaveform)作爲輸入,就像直接聆聽聲音的原始形態,經過編碼後得到1D的音頻表徵,這種方式相比傳統的mel-VAE模型,在音頻的重構和生成建模上更具優勢。爲了確保高頻信息的完整保留,SeedFoley的音頻採樣率高達32k,每秒鐘的音頻能夠提取到32個音頻潛在表徵,有效提升了音頻在時序上的分辨率,讓生成的音效更加細膩逼真,如同天籟之音。
SeedFoley的音頻表徵模型還採用了兩階段聯合訓練策略,如同雙管齊下,在第一階段,使用掩碼策略,剝離音頻表徵中的相位信息,將去相位後的潛在表徵作爲擴散模型的優化目標,就像先解構聲音的結構,再進行重塑;在第二階段,則使用音頻解碼器從去相位表徵中重建相位信息,如同妙手回春,將聲音還原到最真實的狀態。這種分步走的策略,有效降低了擴散模型對錶徵的預測難度,最終實現了高質量音頻潛在表徵的生成和還原。
在擴散模型方面,SeedFoley選擇了DiffusionTransformer框架,通過優化概率路徑上的連續映射關係,實現了從高斯噪聲分佈到目標音頻表徵空間的概率精準匹配,如同在茫茫噪聲中找到目標聲音的正確路徑。相較於傳統擴散模型依賴馬爾可夫鏈式採樣的特性,SeedFoley通過構建連續變換路徑,有效減少了推理步數,大幅降低了推理成本,讓音效生成速度更快,效率更高。在訓練階段,SeedFoley將視頻特徵與音頻語義標籤分別編碼爲隱空間向量,如同將視頻和音頻信息翻譯成AI能夠理解的語言,再通過通道維度拼接(Channel-wiseConcatenation)將二者與時間編碼(TimeEmbedding)及噪聲信號進行混合,形成聯合條件輸入,就像將視頻、音頻和時間信息融合在一起,讓AI能夠更全面地理解視頻內容,生成更精準的音效。
這種巧妙的設計,通過顯式建模跨模態時序相關性,有效提升了音效和視頻畫面在時序上的一致性以及內容的理解能力。在推理階段,用戶還可以通過調整CFG係數,靈活調整視覺信息的控制強度以及生成質量之間的平衡,就像擁有了音效調音臺,可以根據需求自由調整音效風格。通過迭代式優化噪聲分佈,SeedFoley將噪聲逐步轉換爲目標數據分佈,最終生成高質量的音效音頻。爲了避免音效中混入不必要的人聲或背景音樂,SeedFoley還能夠通過將人聲以及音樂標籤進行強制設定,如同給音效劃定界限,有效提升音效的清晰度和質感。最後,將音頻表徵輸入到音頻解碼器中,就能得到最終的完美音效。
總而言之,SeedFoley的誕生,標誌着視頻內容與音頻生成實現了深度融合,它能夠精準提取視頻幀級視覺信息,通過洞察多幀畫面信息,精準識別視頻中的發聲主體及動作場景,無論是節奏感強烈的音樂瞬間,還是電影中的緊張情節,SeedFoley都能精準卡點,營造出身臨其境的逼真體驗。更令人驚喜的是,SeedFoley還能智能區分動作音效和環境音效,如同聲音界的藝術家,顯著提升視頻的敘事張力和情感傳遞效率,讓你的視頻作品更具感染力。
現在,AI音效功能已正式上線即夢平臺,用戶只需使用即夢生成視頻後,選擇AI音效功能,即可一鍵生成3個專業級音效方案,輕鬆擺脫AI視頻的無聲尷尬,在AI視頻創作、生活Vlog、短片製作和遊戲製作等高頻場景中,都能便捷地製作出配有專業音效的高質量視頻,讓你的視頻作品瞬間聲動起來!