浙江大學與阿里巴巴聯合推出全新音頻驅動模型OmniAvatar,標誌着數字人技術邁向新高度。該模型以音頻爲驅動,可生成自然流暢的全身數字人視頻,尤其在歌唱場景下表現突出,口型與音頻脣形同步精準,效果逼真。
OmniAvatar支持通過文本提示精細控制生成細節,用戶可自定義人物動作幅度、背景環境及情緒表達,展現出極高的靈活性。此外,該模型能夠生成虛擬人物與物體互動的視頻,爲電商廣告、營銷廣告等商業場景提供了廣闊應用空間。例如,品牌可利用OmniAvatar製作動態廣告,增強消費者互動體驗。
作爲開源項目,OmniAvatar已在GitHub上發佈,吸引了全球開發者的關注。其在面部表情、半身及全身動畫生成上的優異表現,超越了現有同類模型。據悉,該模型還支持多場景應用,包括播客節目、人際互動及動態表演等,展現了其在內容創作領域的巨大潛力。
業界專家表示,OmniAvatar的發佈不僅提升了音頻驅動數字人技術的真實性與可控性,也推動了AI在營銷、教育及娛樂等領域的創新應用。未來,浙江大學與阿里巴巴將繼續深化合作,探索多模態AI的更多可能性。