近日,美團旗下的 LongCat 團隊宣佈開源其最新的視頻生成模型 ——LongCat-Video-Avatar,標誌着虛擬人技術的又一次重要突破。該模型在長視頻生成領域表現優異,具有多項核心功能,吸引了廣泛的開發者關注。
LongCat-Video-Avatar 基於此前的 LongCat-Video 模型,延續了 “一個模型支持多任務” 的設計理念,原生支持音頻文本轉視頻(AT2V)、音頻文本圖像轉視頻(ATI2V)及視頻續寫等功能。相較於前代產品 InfiniteTalk,該模型在動作擬真度、視頻穩定性和身份一致性上實現了顯著提升,致力於爲開發者提供更高效、實用的創作解決方案。

該模型的核心創新之一是採用了名爲 Cross-Chunk Latent Stitching 的訓練策略,能夠有效解決長視頻生成中的視覺質量退化問題。通過在隱空間內進行特徵替換,LongCat-Video-Avatar 不僅消除了由反覆解碼引起的畫質損失,還顯著提高了生成效率。
此外,爲了保持長視頻中的角色一致性,LongCat-Video-Avatar 還引入了帶位置編碼的參考幀注入模式和 Reference Skip Attention 機制。這一創新使得生成過程中的身份語義保持穩定,同時避免了常見的動作重複和僵化問題。
根據在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等權威公開數據集上的評測,LongCat-Video-Avatar 在多個核心指標上達到了 SOTA 水平,尤其是在脣音同步精度和一致性指標上表現優異。同時,通過大規模的人工評測,該模型在自然度與真實感方面也獲得了良好反饋,展現了強大的應用潛力。

LongCat 團隊表示,LongCat-Video-Avatar 是其在數字人生成技術上的又一次迭代,旨在解決開發者在長視頻生成中面臨的實際問題。該團隊始終堅持開源理念,期望通過社區的共同參與與反饋不斷優化和迭代這一技術。
此次 LongCat-Video-Avatar 的發佈不僅爲虛擬人技術的應用提供了更爲廣闊的可能性,也爲創作者們在數字內容創作上開闢了新的路徑。開發者們可通過 GitHub 和 Hugging Face 等平臺獲取該模型,開始探索 “千人千面” 的數字世界。
項目地址:
GitHub:
https://github.com/meituan-longcat/LongCat-Video
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project:
https://meigen-ai.github.io/LongCat-Video-Avatar/
