字節跳動的研究團隊近日開發出一款名爲 OmniHuman 的人工智能系統,能夠將單張照片轉化爲逼真的視頻,展示人物的講話、歌唱以及自然的動作。這一突破性技術有望徹底改變數字娛樂和通訊領域。
OmniHuman 能夠生成全身視頻,展現人物在講話時的手勢和動態,超越了以往僅能動畫面部或上半身的 AI 模型。這項技術的核心在於,它結合了文本、音頻和人體動作等多種輸入,通過一種稱爲 “全條件” 訓練的創新方法,使得 AI 能夠從更大、更豐富的數據集中學習。
研究團隊指出,OmniHuman 經過超過18700小時的人類視頻數據訓練,表現出了顯著的進步。通過引入多種條件信號(例如文本、音頻和姿勢),這項技術不僅提升了視頻生成的質量,還有效減少了數據的浪費。
研究人員在一篇發表在 arXiv 的論文中提到,儘管近年來人類動畫的端到端技術取得了顯著進展,現有方法在擴大應用規模方面仍存在侷限性。
OmniHuman 的應用潛力廣泛,可以用於製作演講視頻、演示樂器演奏等。經過測試,該技術在多個質量基準上均優於現有系統,顯示出其卓越的性能。這一發展出現在 AI 視頻生成技術日益競爭激烈的背景下,谷歌、Meta 和微軟等公司也在積極追逐類似技術。
然而,儘管 OmniHuman 爲娛樂製作、教育內容創作及數字通訊帶來了變革的可能,但也引發了關於合成媒體潛在誤用的擔憂。研究團隊將在即將召開的計算機視覺會議上展示他們的研究成果,雖然具體的時間和會議尚未公佈。
論文:https://arxiv.org/pdf/2502.01061
劃重點:
🌟 OmniHuman 是一款新型 AI,能夠將單張照片轉化爲逼真的全身視頻。
📊 該技術經過18700小時的人類視頻數據訓練,結合多種輸入信號以提升生成效果。
⚖️ 儘管具有廣泛應用潛力,但也引發了關於合成媒體可能被濫用的擔憂。