近日,字節跳動數字人團隊推出了備受矚目的OmniHuman-1.5,作爲其前身OmniHuman-1的升級版本,這一全新多模態數字人方案在AI視頻生成領域再次掀起熱潮。OmniHuman-1.5通過結合單張圖像和音頻輸入,生成高度逼真的動態視頻,不僅提升了動作協調性和表現力,還新增多項突破性功能,爲影視製作、虛擬主播、教育培訓和廣告營銷等領域帶來了全新可能。

image.png

項目地址:https://omnihuman-lab.github.io/v1_5/

 技術升級:真實感與泛化能力大幅提升

OmniHuman-1.5延續了其前身的核心技術,通過單張圖像和音頻生成生動的人物視頻。相比上一代,OmniHuman-1.5在真實感和泛化能力上實現了顯著提升。得益於字節跳動團隊優化後的多模態運動條件混合訓練策略,生成的視頻在動作自然度、脣形同步以及情感表達上更加細膩逼真。無論是真人形象還是動漫角色,OmniHuman-1.5都能生成與音頻內容高度匹配的動態效果,展現出極高的視覺質量。

 突破性功能:雙人場景與長視頻生成

支持雙人音頻驅動是OmniHuman-1.5的一大亮點。傳統AI視頻生成技術多侷限於單人場景,而OmniHuman-1.5首次實現了基於雙人音頻輸入的視頻生成,能夠精準捕捉多角色間的交互動作與表情,爲多人場景表演提供了技術支持。此外,該技術支持生成超過一分鐘的視頻,通過幀間連接策略確保長時間視頻的連貫性和身份一致性,滿足了更復雜的應用需求,如演講視頻、音樂MV等。

 情感感知與文本提示:更智能的創作體驗

OmniHuman-1.5不僅侷限於機械的動作生成,還能感知音頻中的情感並通過視頻表現出來。例如,根據音頻的語調和情緒,系統可自動調整人物的面部表情和肢體動作,使視頻更具感染力。同時,新增的文本提示詞功能允許用戶通過文字描述進一步定製視頻內容,例如指定場景風格或動作細節,爲創作者提供了更大的靈活性。

 多風格支持:從真人到非真人全覆蓋

除了真人形象,OmniHuman-1.5在處理非真人形象(如動漫角色、3D卡通形象)方面表現尤爲出色。系統能夠保持不同藝術風格下動作的自然一致性,確保脣形和動作與音頻完美同步。這一特性使其廣泛適用於遊戲、虛擬現實(VR)以及增強現實(AR)場景,爲用戶帶來沉浸式體驗。

 廣泛應用:賦能多行業內容創作

OmniHuman-1.5的應用潛力令人振奮。在影視製作領域,它可用於角色動畫和特效製作,快速生成與音頻同步的虛擬演員視頻;在虛擬主播與娛樂場景中,創作者可利用其生成生動的人物形象,增強直播互動性;在教育與培訓中,OmniHuman-1.5能生成具有生動肢體語言的教學視頻,提升內容的吸引力和易懂性;在廣告與營銷中,定製化的虛擬人物可助力品牌宣傳,顯著提升轉化率。

 技術前景與挑戰

儘管OmniHuman-1.5在技術上取得了重大突破,但仍面臨一些挑戰。例如,音頻與動作之間的關聯隨機性可能導致部分動作不夠自然,物體交互的真實性也需進一步優化。此外,高計算資源需求可能限制其在普通設備上的普及。字節跳動團隊表示,未來將通過引入更細粒度的動作控制、增強物理約束建模以及模型壓縮等技術,進一步提升系統性能和用戶體驗。