美團龍貓大模型團隊今日宣佈,正式開源商用級數字人視頻生成模型——LongCat-Video-Avatar1.5。 該版本實現了從開源 SOTA(最高水平)向商業級實際應用的全面跨越,在脣形同步、物理合理性、長視頻穩定性、多人互動及高效推理等核心維度上完成了全面躍升。
三大能力升級:直擊商業化痛點
爲了讓數字人真正走向千人千面的真實應用場景,LongCat-Video-Avatar1.5針對傳統數字人視頻的“抖動、畸變、高延遲”等頑疾,進行了三大全方位升級:
基礎體驗商用化(音頻編碼器升級)
模型將音頻特徵提取編碼器從 Wav2Vec2升級爲了 Whisper-large。憑藉更大的參數量和更豐富的多語言先驗,模型能細緻捕捉音素變化與發音節奏。這不僅使長句、快語速、歌唱等複雜音頻下的脣動更精準,更實現了面部、頭部、肢體動作與語音的自然協同,大幅減少了長視頻中常見的跳幀和身份漂移。
強開放域泛化(多階段增強數據體系)
爲穩定處理真人、虛擬偶像、動漫及動物等多類主體,團隊構建了包含“離線標註”與“在線驗證”的多階段數據處理流程,並針對性注入了三類增強數據:
多人數據:利用主動說話人檢測,消除多人場景下的音畫歧義,準確區分說話者與聆聽者。
靜默數據:篩選未說話視頻,讓模型學習無語音狀態下的自然微表情,避免非說話角色嘴部亂動。
情緒數據:結合幀級情緒識別精篩,注入情緒變化,使模型理解語音與表情的深層關聯。
手部與連續性專項對齊(引入 GRPO)
針對電商直播、產品展示等需要頻繁露手的場景,模型引入了 GRPO(人類偏好對齊),將獎勵信號細化到逐幀層面,並加入首幀手部檢測機制。這顯著緩解了手部畸變、局部結構崩塌以及動作不連貫等行業難題。

推理效率飆升15倍:告別昂貴算力
商業級應用的另一大核心是成本。LongCat-Video-Avatar1.5採用了 DMD(分佈匹配蒸餾)技術,成功將原本需要50步的生成過程壓縮至 8步。同時,團隊用“一個共享基礎模型 + 多個 LoRA 適配器”的架構替代了傳統的三模型並行方案,大幅釋放顯存。
在實際測試中,模型實現了約 15倍 的推理效率提升,生成一段10秒的視頻僅需約1分鐘。
權威基準評測:全面領先行業頭部模型
基於 EvalTalker 評測基準,770名評估者與10名領域專家對涵蓋新聞、教育、娛樂等複雜場景的視頻進行了結構化質量分析。數據顯示,LongCat-Video-Avatar1.5在多項核心指標上表現驚豔:
用戶偏好勝率:相比 Kling Avatar2.0勝率達 65.9%;相比 OmniHuman-1.5勝率達 61.1%;相比 HeyGen 勝率達 54.3%。
單/多人場景得分:單人場景得分 3.336,顯著高於 HeyGen 等產品;多人場景得分 2.730,大幅領先 InfiniteTalk(2.339)。
畫面穩定性:主體變形率僅爲23.1%,背景變形率僅9.4%;跳幀問題率低至0.8%,在所有對比模型中表現最佳。
音視頻協調性:面部-身體同步問題率降至 5.1%,脣形同步問題率降至 29.8%,均優於傳統商業系統。
美團龍貓大模型團隊表示,LongCat-Video-Avatar1.5的開源不僅是版本的更新,更是向全球開發者和創作者發出的共建邀請。團隊希望該模型能成爲一個可驗證、可改進的技術基座,共同拓展數字人視頻的真實應用邊界。
開源鏈接:
Github:https://github.com/meituan-longcat/LongCat-Video
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
Modelscope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary
