FoleyCrafter 是一個基於文本的視頻到音頻生成框架,可以生成與輸入視頻在語義上相關且時間上同步的高質量音頻。
FoleyCrafter理解視頻的語義內容,並自動匹配合適的聲音效果。想象一下,視頻中出現一隻活潑的小狗,FoleyCrafter立刻生成了狗叫聲,完美同步,彷彿真的有一隻狗在畫面中。

FoleyCrafter確保聲音與視頻的同步性。門被關上的瞬間,那“砰”的一聲也在同一時刻響起。這種精確的同步,讓視聽體驗更加沉浸和真實。
使用FoleyCrafter非常簡單。你只需要提供一段視頻和一些簡單的文字描述,它就能自動生成你需要的聲音效果。甚至,你可以通過文字描述來指定想要的聲音,比如輸入“海浪聲”,它就能爲你生成海浪拍打岸邊的聲音。
官方演示視頻
FoleyCrafter不挑視頻類型。無論是電影、動畫還是遊戲視頻,它都能遊刃有餘,爲不同類型的視頻內容提供定製化的聲音效果。
核心功能:
高質量音頻生成:基於預訓練的文本到音頻模型,FoleyCrafter能夠生成高質量的音頻,讓無聲視頻煥發新生。
語義對齊:通過語義適配器,FoleyCrafter確保生成的聲音與視頻內容在語義上高度相關。
時間同步:時間控制器負責精確的音視頻同步,讓每一個聲音都出現在它應該出現的時刻。
文本提示控制:FoleyCrafter支持使用文本描述來控制音頻生成,實現用戶意圖的可控和多樣化的視頻到音頻生成。
