比原聲還原生！字節新項目Loopy讓數字人聲音完美匹配畫面該死的割裂感終於消失了

在這個數字化浪潮席捲全球的時代，虛擬形象已悄然成爲我們日常生活中不可或缺的一部分。

然而比較常玩圖生視頻+對口型的用戶都碰到過一個尷尬的問題，你的“人物”無論生成得多逼真，但她一張嘴就露餡了。

證件照寫真 (1)

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

簡單來說，就是聲音和畫面完全是割裂的，大家一聽就知道這個聲音不是她發出的，或者說，在那個場景下，人們聽到的聲音不該是這樣的。

現在，這個尷尬的問題終於有人給解決了!

近日，一項名爲LOOPY的創新技術橫空出世，它不僅突破了傳統虛擬形象動畫的侷限，更爲數字世界注入了前所未有的活力。

LOOPY是由字節跳動和浙江大學的科研團隊聯合開發的一款基於音頻驅動的視頻擴散模型。與以往需要複雜空間信號輔助的技術不同，LOOPY僅需一幀圖像和音頻輸入，就能讓虛擬形象展現出令人驚豔的動態效果。

這項技術的核心在於其獨特的長期運動信息捕捉模塊，Loopy 支持各種視覺和音頻風格，它就像一位經驗豐富的編舞者，能夠根據音頻的節奏和情感，精準地"指揮"虛擬形象的每一個細微動作。例如嘆息等非語音動作、情緒驅動的眉毛和眼睛運動以及自然的頭部運動。

比如這個視頻中，泰勒說話時候的眼部以及頸部的動作，都完美符合大家的預期。讓你盯着看她說話的時候，很自然的就覺的她說話的時候就是這個樣子的。包括人物說話當下的環境音，場景音，都讓你覺得“理所當然”。

包括這種非現實人物，LOOPY也表現驚豔。無論是歌手演唱時的細膩表情，還是與情緒同步的眉眼變化，甚至是一聲輕柔的嘆息，LOOPY都能完美呈現。

更令人驚喜的是，它還能根據不同的音頻爲同一張參考圖像生成多樣化的動作效果，從激情四射到溫柔婉約，應有盡有。這種靈活性爲創作者提供了無限的想象空間。

在實際應用中，LOOPY展現出了卓越的性能。通過在多個真實世界數據集上的測試，它不僅在自然度上遠超現有的音頻驅動肖像擴散模型，還能在各種複雜場景下生成高質量、高真實度的結果。

特別值得一提的是，LOOPY在處理側面肖像時也表現出色，這無疑將推動虛擬形象的表現力再上新臺階。

LOOPY的出現，無疑爲虛擬世界打開了一扇新的大門。它不僅能夠在遊戲、電影製作和虛擬現實等領域大顯身手，提升用戶體驗，還爲創作者們提供了更廣闊的創作平臺。隨着技術的不斷進步，LOOPY的潛力正在被進一步挖掘，它很可能成爲引領未來虛擬形象技術發展的新標杆。

項目地址：https://loopyavatar.github.io/

開源版HeyGen來了！Heygem：精準克隆外貌和聲音，支持對口型

Heygem 是一款爲 Windows 系統設計的全新離線視頻合成工具，它能精準克隆用戶的外貌和聲音，將個人形象數字化。該工具支持用戶通過文本和語音驅動虛擬形象進行視頻創作，整個過程無需互聯網連接，確保用戶隱私安全。Heygem 的核心功能包括精確的外貌和聲音克隆。其使用先進的 AI 算法，能夠高精度地捕捉用戶的面部特徵與輪廓，構建出逼真的虛擬模型。同時，它還能克隆用戶的聲音，捕捉到語音的細微特徵，支持多種聲音參數設置，創造出高度相似的克隆效果。此外，Heygem 具備文本和

HeyGen推出數字人運動控制功能能彈樂器還能跳舞

視頻生成領域迎來革命性突破。人工智能公司HeyGen最新發布的數字人運動控制系統，首次實現虛擬形象的大幅度肢體動作操控。這項技術突破使數字人不僅能完成基礎的頭部微表情，更能流暢執行彈奏樂器、舞蹈表演等複雜肢體動作，甚至精確控制手指關節完成特定手勢。演示視頻中，虛擬角色手持鮮花的自然抓握動作引發行業關注。儘管當前展示仍以單一物品操作爲主，但技術底層已具備物體交互能力框架。分析人士指出，該功能已具備商品展示應用潛力，未來迭代可能突破現有展示形

HeyGen推全新數字人技術集成Sora，演技超越真人

近日，HeyGen 公司宣佈將其數字人模型與 OpenAI 的 Sora 模型實現集成，引發業界廣泛關注。這一技術突破意味着，我們即將迎來前所未有的、由人工智能驅動的“會說話的虛擬形象”視頻。這些虛擬形象不僅能夠無縫地融入 Sora 生成的場景中，更在某些方面超越了真人演員的表現，爲視頻創作帶來了無限的可能性。長期以來，傳統視頻拍攝依賴真人演員，不僅拍攝成本高昂，後期調整也十分繁瑣。如今，有了 HeyGen 和 Sora 的強強聯合，情況將發生巨大改變。新技術的優勢在於，用戶可以對虛

可靈AI API對口型能力全面開放、虛擬試穿升級至V1.5模型

北京快手科技有限公司近日宣佈，其自主研發的視覺生成大模型可靈AI（Kling）API完成了新一輪的能力升級。升級後的可靈AI API在虛擬試穿和對口型兩大功能上實現了顯著進步，爲電商、廣告營銷、泛娛樂及AI工具領域的客戶提供了更爲強大的技術支持。

ESPN 正在測試人工智能生成的虛擬形象 FACTS

ESPN 正在爲其週六大學橄欖球節目 SEC Nation 開發一款由人工智能生成的虛擬形象，名爲 FACTS。該虛擬形象將利用 ESPN Analytics 的信息，包括足球實力指數（FPI）、球員和球隊統計數據以及比賽日程安排等數據，來促進體育分析方面的教育和樂趣。圖片:ESPNFACTS 被描述爲 ESPN 第一位統計學家 Howie Schwab 的機器人版本，後者曾是2000年代中期遊戲節目 Stump the Schwab 的明星。然而，ESPN 強調 FACTS 並非旨在取代記者或其他人才，而是爲了測試創新併爲 ESPN Analytics 的數據創造一個渠道，讓粉絲能夠以引人

比原聲還原生！字節新項目Loopy讓數字人聲音完美匹配畫面 該死的割裂感終於消失了

相關推薦