TANGO,一個接近HeyGen的強大解決方案。這個創新項目不僅支持面部和脣形同步,更令人驚歎的是,它能夠生成與音頻完美匹配的全身動作視頻。

TANGO的核心優勢在於其獨特的生成邏輯。首先,系統會分析用戶提供的短視頻樣本,構建一個包含各種身體姿勢和動作轉換的"動作圖譜"。

然後,它會根據輸入的音頻內容,選擇最佳的動作序列。最後,通過生成流暢的過渡幀,創造出自然逼真的動作視頻。這種方法使得TANGO能夠從短短几十秒的樣本視頻中,生成無限量的、與音頻匹配的全身動作視頻。

TANGO項目的技術基礎建立在層次音頻運動嵌入和擴散插值算法之上。這些先進技術使系統能夠精確理解音頻中的語音特徵,並將其轉化爲相應的手勢動作。

同時,擴散插值技術確保了動作之間的過渡自然流暢,避免了突兀的切換,大大提升了視頻的整體觀感。

對於開發者和技術愛好者來說,TANGO的開源性質無疑是一個巨大的吸引點。它爲進一步的創新和改進提供了廣闊的空間。例如,通過結合快手開源的LivePortrait等脣形同步項目,開發者們有望創造出更加完整、逼真的AI視頻生成系統。

TANGO的應用前景十分廣闊。對於教育工作者、內容創作者,甚至是普通用戶,TANGO都提供了一個簡單易用的界面。用戶只需上傳音頻文件,就可以生成相應的手勢視頻,大大簡化了視頻製作過程,使創作變得更加輕鬆和高效。

然而,我們也需要認識到,儘管TANGO在全身動作生成方面取得了突破性進展,但目前開源的HeyGen類似項目在某些方面仍有侷限。大多數項目主要支持面部和脣形同步,而在更大範圍的肢體運動生成上還有待提高。

項目地址:https://pantomatrix.github.io/TANGO/