拒絕彩排，真刀真槍上舞臺!美團LongCat-Video-Avatar1.5開源:全面擊敗主流閉源模型

美團龍貓大模型團隊今日宣佈，正式開源商用級數字人視頻生成模型——LongCat-Video-Avatar1.5。 該版本實現了從開源 SOTA（最高水平）向商業級實際應用的全面跨越，在脣形同步、物理合理性、長視頻穩定性、多人互動及高效推理等核心維度上完成了全面躍升。

爲了讓數字人真正走向千人千面的真實應用場景，LongCat-Video-Avatar1.5針對傳統數字人視頻的“抖動、畸變、高延遲”等頑疾，進行了三大全方位升級:

基礎體驗商用化（音頻編碼器升級）
模型將音頻特徵提取編碼器從 Wav2Vec2升級爲了 Whisper-large。憑藉更大的參數量和更豐富的多語言先驗，模型能細緻捕捉音素變化與發音節奏。這不僅使長句、快語速、歌唱等複雜音頻下的脣動更精準，更實現了面部、頭部、肢體動作與語音的自然協同，大幅減少了長視頻中常見的跳幀和身份漂移。
強開放域泛化（多階段增強數據體系）
爲穩定處理真人、虛擬偶像、動漫及動物等多類主體，團隊構建了包含“離線標註”與“在線驗證”的多階段數據處理流程，並針對性注入了三類增強數據:
- 多人數據:利用主動說話人檢測，消除多人場景下的音畫歧義，準確區分說話者與聆聽者。
- 靜默數據:篩選未說話視頻，讓模型學習無語音狀態下的自然微表情，避免非說話角色嘴部亂動。
- 情緒數據:結合幀級情緒識別精篩，注入情緒變化，使模型理解語音與表情的深層關聯。
手部與連續性專項對齊（引入 GRPO）
針對電商直播、產品展示等需要頻繁露手的場景，模型引入了 GRPO（人類偏好對齊），將獎勵信號細化到逐幀層面，並加入首幀手部檢測機制。這顯著緩解了手部畸變、局部結構崩塌以及動作不連貫等行業難題。

商業級應用的另一大核心是成本。LongCat-Video-Avatar1.5採用了 DMD（分佈匹配蒸餾）技術，成功將原本需要50步的生成過程壓縮至 8步。同時，團隊用“一個共享基礎模型 + 多個 LoRA 適配器”的架構替代了傳統的三模型並行方案，大幅釋放顯存。

在實際測試中，模型實現了約 15倍 的推理效率提升，生成一段10秒的視頻僅需約1分鐘。

基於 EvalTalker 評測基準，770名評估者與10名領域專家對涵蓋新聞、教育、娛樂等複雜場景的視頻進行了結構化質量分析。數據顯示，LongCat-Video-Avatar1.5在多項核心指標上表現驚豔:

用戶偏好勝率:相比 Kling Avatar2.0勝率達 65.9%;相比 OmniHuman-1.5勝率達 61.1%;相比 HeyGen 勝率達 54.3%。
單/多人場景得分:單人場景得分 3.336，顯著高於 HeyGen 等產品;多人場景得分 2.730，大幅領先 InfiniteTalk（2.339）。
畫面穩定性:主體變形率僅爲23.1%，背景變形率僅9.4%;跳幀問題率低至0.8%，在所有對比模型中表現最佳。
音視頻協調性:面部-身體同步問題率降至 5.1%，脣形同步問題率降至 29.8%，均優於傳統商業系統。

美團龍貓大模型團隊表示，LongCat-Video-Avatar1.5的開源不僅是版本的更新，更是向全球開發者和創作者發出的共建邀請。團隊希望該模型能成爲一個可驗證、可改進的技術基座，共同拓展數字人視頻的真實應用邊界。

開源鏈接:

Github:https://github.com/meituan-longcat/LongCat-Video
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
Modelscope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈