還記得月初剛發佈時就讓大家驚豔不已的字節新項目Loopy嗎?這個讓數字人聲音完美匹配畫面還匹配表情和情緒的對口型項目已經正式在即夢上線了。

AIbase體驗了一下,效果非常不錯,可以說是目前支持中文效果最好的對口型服務了。
以往,對口型視頻往往存在一個通病,那就是看似嘴型對上了,但總感覺這個聲音不是他發出來的,以至於大家看對口型視頻的時候,會有一種割裂感。
字節跳動和浙江大學的科研團隊聯合開發的基於音頻驅動的視頻擴散模型LOOPY完美解決了這個問題。

不同於以往的對口型只是張張嘴,Loopy可以讓對口型視頻中的角色在說話或唱歌時,還自動帶上該語境下相應的語氣,情緒和表情。它可以精準地"指揮"虛擬形象的每一個細微動作,例如嘆息等非語音動作、情緒驅動的眉毛和眼睛運動以及自然的頭部運動。
目前,這一功能已經集合進字節旗下即夢的視頻生成模塊內:
AIbase上傳了一張女孩的照片測試一下,
即夢裏面的對口型目前可以選擇兩種對口型方式:
1、文本朗讀

即夢的操作基本都很簡單,只需要上傳你要對口型的角色圖片或視頻,然後輸入文本,選擇一個配音即可。這裏AIbase選了一個高冷御姐的配音,測試效果如下:
可以看到,人物在說話的同時,還會有一些細微的表情,而且說話的時候,法令紋那些細節的動態也比較真實
2、上傳本地配音
而且,你不但可以讓她說話,還可以上傳一段唱歌的音頻,讓她開口唱歌:

這裏AIbase選擇了一段抖音最近比較火的野人節選片段,看看效果:
效果真不錯,不僅口型對上了,而且聲音不會讓人有割裂的感覺,彷彿女孩的原聲就是這樣的。
不過有一個小問題,AIbase選的這個女孩照片,眼睛沒看向觀衆,可能代入感不夠強烈,我再換一個正面的試試:
這樣是不是好多了,而且人物在唱歌的時候,還會有閉眼,搖頭這樣很真實的動作。
AIbase還測試了一個男生版的,效果如下:
效果是不是很驚豔?比較讓AIbase驚喜的是,它在對口型的時候,還會考慮到喉結,眉毛等這些很細微的變化細節。使得整體的視頻更加真實。
感興趣的可以自行體驗哦~
