復旦開源的項目Hallo,一個根據音頻和圖片生成說話視頻的項目,已經適配了ComfyUI插件。雖然安裝過程中需要的依賴較多,門檻相對較高,但這一開源生態的出現,爲後續的轉繪和其他流程提供了更多的可能性和樂趣。

Hallo項目通過輸入音頻,可以讓面部照片開始說話,並且伴隨着相應的表情,效果看起來非常自然。這個項目採用了端到端的擴散範式,引入了分層的音頻驅動視覺合成模塊,以提高音頻輸入與視覺輸出之間的對齊精度,包括脣部、表情和姿勢的運動。
這種分層音頻驅動的視覺合成模塊,提供了對錶情和姿勢多樣性的自適應控制,更有效地實現了針對不同身份的個性化定製。這意味着,無論是誰的面部照片,都可以通過Hallo項目生成說話的視頻,而且效果自然,彷彿真人在說話一般。
儘管Hallo項目的安裝過程可能相對複雜,但它的出現無疑爲開源生態帶來了新的活力。隨着技術的不斷髮展,我們可以期待未來會有更多這樣的項目出現,爲我們的生活帶來更多的便利和樂趣。
插件地址:https://github.com/AIFSH/ComfyUI-Hallo
