今日,美團 LongCat 團隊正式發佈了其全新的視頻生成模型 ——LongCat-Video。這一模型以其精準重構真實世界運行狀態的能力,標誌着美團在探索 “世界模型” 領域的重大進展。世界模型是實現下一代人工智能的核心引擎,能夠幫助 AI 更好地理解、預測和重構真實世界的動態。

QQ20251027-102541.png

LongCat-Video 基於先進的 Diffusion Transformer(DiT)架構,集成了文生視頻、圖生視頻和視頻續寫等多項核心功能。這一創新模型通過 “條件幀數量” 的設定,有效實現了任務的靈活區分,確保在不同輸入條件下均能發揮出色的生成能力。LongCat-Video 在文生視頻生成上能夠輸出720p、30fps 的高清視頻,並具備開源領域領先的語義理解和視覺呈現能力。此外,圖生視頻能夠在動態過程中嚴格保留參考圖像的屬性與風格,展現出自然流暢的運動表現。

最爲引人矚目的是 LongCat-Video 的長視頻生成能力。該模型通過視頻續寫任務的預訓練,能夠穩定輸出達5分鐘的連貫長視頻,同時避免常見的色彩漂移、畫質降解和動作斷裂等問題。這一技術突破不僅提升了視頻生成的質量,也爲自動駕駛、具身智能等深度交互場景提供了堅實的技術基礎。

在高效推理方面,LongCat-Video 採用了 “二階段粗到精生成” 策略,並結合塊稀疏注意力(BSA)和模型蒸餾優化,大幅提升了視頻生成的速度和質量。該模型的推理速度提升至10.1倍,確保在處理長視頻時依舊保持優異的生成質量。

LongCat-Video 經過嚴格的內部和公開基準測試,顯示出在文本對齊、視覺質量和運動質量等多個維度的優秀性能,綜合能力達到當前開源領域的 SOTA(State of the Art)水平。團隊表示,LongCat-Video 的發佈將大大簡化長視頻的創作過程,使創作者能夠從1秒鐘的靈感躍升至5分鐘的成片。

爲了讓更多人體驗這一先進技術,美團已在 GitHub 和 Hugging Face 上發佈了 LongCat-Video 的相關資源。該項目不僅爲個人創作者提供了強大的工具,也爲整個視頻創作行業注入了新的活力。

LongCat-Video 的發佈,不僅代表着技術的進步,更是美團在智能創作領域邁出的重要一步。隨着這一模型的廣泛應用,未來的長視頻創作將變得更加簡單而富有創意。