各位“衝浪達人”們,還記得那些年我們追過的表情包嗎?從“地鐵老人看手機”到“金館長熊貓頭”,它們不僅承包了我們的笑點,也成爲了一種獨特的網絡文化符號。如今,短視頻風靡全球,表情包也“與時俱進”,從靜態圖片進化成了動態視頻,在各大平臺上瘋狂刷屏。

但是,想要製作一個高質量的表情包視頻可不是件容易的事。首先,表情包的特點就是表情誇張,動作幅度大,這對視頻生成技術提出了不小的挑戰。其次,很多現有的方法需要對整個模型進行參數優化,這不僅費時費力,還可能導致模型的泛化能力下降,難以兼容其他衍生模型,可謂是“牽一髮而動全身”。
那麼,有沒有一種方法可以讓我們輕鬆製作出既生動有趣又高保真的表情包視頻呢?答案是:當然有!HelloMeme 來拯救你啦!
HelloMeme 就像是一個給大型模型“裝插件”的工具,它能夠在不改變原模型的基礎上,讓模型學會製作表情包視頻這項“新技能”。 它的祕密武器就是優化了與二維特徵圖相關的注意力機制,從而增強了適配器的性能。簡單來說,就是給模型戴上了一副“透視眼鏡”,讓它能夠更準確地捕捉到表情和動作的細節。
HelloMeme 的工作原理也很有意思。它由三個小夥伴組成:HMReferenceNet、HMControlNet 和 HMDenoisingNet。
HMReferenceNet 就像是一個“閱片無數”的老師傅,它可以從參考圖像中提取出高保真的特徵。 這就好比是給模型提供了一份“表情包製作指南”,讓它知道什麼樣的表情纔夠“沙雕”。
HMControlNet 則像是一個“動作捕捉大師”,它可以提取出頭部姿態和麪部表情信息。 這相當於給模型安裝了一套“動作捕捉系統”,讓它能夠精準地捕捉到每一個細微的表情變化。
HMDenoisingNet 則是“視頻剪輯師”,它負責將前面兩個小夥伴提供的信息整合起來,生成最終的表情包視頻。 它就像是一個經驗豐富的剪輯師,可以將各種素材完美地融合在一起,打造出讓人捧腹大笑的視頻作品。
爲了讓這三個小夥伴能夠更好地協同工作,HelloMeme 還使用了一種名爲“空間編織注意力機制”的魔法。這個機制就像是在編織毛衣一樣,將不同的特徵信息交織在一起,從而保留了二維特徵圖中的結構信息。 這樣一來,模型就不用重新學習這些基礎知識,可以更加專注於表情包製作的“藝術創作”。
HelloMeme 最厲害的地方在於它在訓練過程中完全保留了 SD1.5UNet 模型的原始參數,只優化了插入適配器的參數。** 這就好比是給模型“打了個補丁”,而不是對它進行“大手術”。** 這樣做的好處是既保留了原模型的強大功能,又賦予了它新的能力,可謂是一舉兩得。
HelloMeme 在表情包視頻生成任務上取得了非常棒的效果。它生成的視頻不僅表情生動,動作流暢,而且畫面清晰度高,簡直可以媲美專業製作水平。 更重要的是,HelloMeme 還與 SD1.5衍生模型具有良好的兼容性,這意味着我們可以利用其他模型的優勢來進一步提升表情包視頻的質量。
當然,HelloMeme 還有很多可以改進的空間。例如,它生成的視頻在幀連續性方面還略遜於一些基於 GAN 的方法,風格表達能力也有待增強。不過,HelloMeme 的研究團隊已經表示,他們會繼續努力改進模型,讓它變得更加強大,更加“沙雕”。
相信在不久的將來,HelloMeme 會成爲我們製作表情包視頻的最佳利器,讓我們可以盡情釋放自己的“沙雕”腦洞,用表情包統治短視頻時代!
項目地址:https://songkey.github.io/hellomeme/
