復旦大學和百度公司的研究人員聯合開發了一種名爲 Hallo2的全新 AI 模型,該模型可以生成長達數小時的4K 分辨率人物動畫,並且可以通過語音和文字提示進行精準控制。
一直以來,生成高質量的人物動畫需要耗費大量的時間和人力成本。而 Hallo2的出現,有望徹底改變這一現狀,爲電影製作、虛擬助手、遊戲開發等領域帶來革命性的變化。
Hallo2模型建立在 latent diffusion models 的基礎上,並引入了一系列創新性的技術,包括:
Patch-drop 數據增強技術:通過對運動幀進行隨機遮擋,防止模型過度依賴前序幀的畫面信息,從而保證生成的人物動畫在長時間序列中保持穩定的外觀。
高斯噪聲增強技術:通過向運動幀中添加高斯噪聲,增強模型對畫面噪聲和運動失真的魯棒性,進一步提升動畫的質量和連貫性。
VQGAN 離散碼本預測技術:將 VQGAN 模型擴展到時間維度,並結合時間對齊技術,實現高分辨率視頻的生成,並確保畫面細節在時間上的連貫性。
文本提示控制機制:通過引入自適應層歸一化機制,使模型能夠根據文本提示精準地控制人物的表情和動作,使動畫更具表現力和可控性。
Hallo2模型的強大性能已經在多個公開數據集上得到了驗證,包括 HDTF、CelebV 以及研究人員自己創建的“Wild”數據集。實驗結果表明,Hallo2在生成高質量、長序列人物動畫方面超越了現有的所有方法。
Hallo2模型的發佈標誌着 AI 人物動畫生成技術邁上了一個新的臺階。未來,研究人員計劃進一步優化模型的效率和可控性,並探索其在更多領域的應用。
項目地址:https://fudan-generative-vision.github.io/hallo2/#/
論文地址:https://arxiv.org/pdf/2410.07718