在這個數字化浪潮席捲全球的時代,虛擬形象已悄然成爲我們日常生活中不可或缺的一部分。
然而比較常玩圖生視頻+對口型的用戶都碰到過一個尷尬的問題,你的“人物”無論生成得多逼真,但她一張嘴就露餡了。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
簡單來說,就是聲音和畫面完全是割裂的,大家一聽就知道這個聲音不是她發出的,或者說,在那個場景下,人們聽到的聲音不該是這樣的。
現在,這個尷尬的問題終於有人給解決了!
近日,一項名爲LOOPY的創新技術橫空出世,它不僅突破了傳統虛擬形象動畫的侷限,更爲數字世界注入了前所未有的活力。
LOOPY是由字節跳動和浙江大學的科研團隊聯合開發的一款基於音頻驅動的視頻擴散模型。與以往需要複雜空間信號輔助的技術不同,LOOPY僅需一幀圖像和音頻輸入,就能讓虛擬形象展現出令人驚豔的動態效果。

這項技術的核心在於其獨特的長期運動信息捕捉模塊,Loopy 支持各種視覺和音頻風格,它就像一位經驗豐富的編舞者,能夠根據音頻的節奏和情感,精準地"指揮"虛擬形象的每一個細微動作。例如嘆息等非語音動作、情緒驅動的眉毛和眼睛運動以及自然的頭部運動。
比如這個視頻中,泰勒說話時候的眼部以及頸部的動作,都完美符合大家的預期。讓你盯着看她說話的時候,很自然的就覺的她說話的時候就是這個樣子的。包括人物說話當下的環境音,場景音,都讓你覺得“理所當然”。
包括這種非現實人物,LOOPY也表現驚豔。無論是歌手演唱時的細膩表情,還是與情緒同步的眉眼變化,甚至是一聲輕柔的嘆息,LOOPY都能完美呈現。
更令人驚喜的是,它還能根據不同的音頻爲同一張參考圖像生成多樣化的動作效果,從激情四射到溫柔婉約,應有盡有。這種靈活性爲創作者提供了無限的想象空間。
在實際應用中,LOOPY展現出了卓越的性能。通過在多個真實世界數據集上的測試,它不僅在自然度上遠超現有的音頻驅動肖像擴散模型,還能在各種複雜場景下生成高質量、高真實度的結果。
特別值得一提的是,LOOPY在處理側面肖像時也表現出色,這無疑將推動虛擬形象的表現力再上新臺階。
LOOPY的出現,無疑爲虛擬世界打開了一扇新的大門。它不僅能夠在遊戲、電影製作和虛擬現實等領域大顯身手,提升用戶體驗,還爲創作者們提供了更廣闊的創作平臺。隨着技術的不斷進步,LOOPY的潛力正在被進一步挖掘,它很可能成爲引領未來虛擬形象技術發展的新標杆。
項目地址:https://loopyavatar.github.io/
