美團發佈 LongCat-Video 視頻生成模型，開實現時序一致性與物理運動合理性

今日，美團 LongCat 團隊正式發佈了其全新的視頻生成模型 ——LongCat-Video。這一模型以其精準重構真實世界運行狀態的能力，標誌着美團在探索 “世界模型” 領域的重大進展。世界模型是實現下一代人工智能的核心引擎，能夠幫助 AI 更好地理解、預測和重構真實世界的動態。

LongCat-Video 基於先進的 Diffusion Transformer（DiT）架構，集成了文生視頻、圖生視頻和視頻續寫等多項核心功能。這一創新模型通過 “條件幀數量” 的設定，有效實現了任務的靈活區分，確保在不同輸入條件下均能發揮出色的生成能力。LongCat-Video 在文生視頻生成上能夠輸出720p、30fps 的高清視頻，並具備開源領域領先的語義理解和視覺呈現能力。此外，圖生視頻能夠在動態過程中嚴格保留參考圖像的屬性與風格，展現出自然流暢的運動表現。

最爲引人矚目的是 LongCat-Video 的長視頻生成能力。該模型通過視頻續寫任務的預訓練，能夠穩定輸出達5分鐘的連貫長視頻，同時避免常見的色彩漂移、畫質降解和動作斷裂等問題。這一技術突破不僅提升了視頻生成的質量，也爲自動駕駛、具身智能等深度交互場景提供了堅實的技術基礎。

在高效推理方面，LongCat-Video 採用了 “二階段粗到精生成” 策略，並結合塊稀疏注意力（BSA）和模型蒸餾優化，大幅提升了視頻生成的速度和質量。該模型的推理速度提升至10.1倍，確保在處理長視頻時依舊保持優異的生成質量。

LongCat-Video 經過嚴格的內部和公開基準測試，顯示出在文本對齊、視覺質量和運動質量等多個維度的優秀性能，綜合能力達到當前開源領域的 SOTA（State of the Art）水平。團隊表示，LongCat-Video 的發佈將大大簡化長視頻的創作過程，使創作者能夠從1秒鐘的靈感躍升至5分鐘的成片。

爲了讓更多人體驗這一先進技術，美團已在 GitHub 和 Hugging Face 上發佈了 LongCat-Video 的相關資源。該項目不僅爲個人創作者提供了強大的工具，也爲整個視頻創作行業注入了新的活力。

LongCat-Video 的發佈，不僅代表着技術的進步，更是美團在智能創作領域邁出的重要一步。隨着這一模型的廣泛應用，未來的長視頻創作將變得更加簡單而富有創意。

美團發佈 LongCat-Video 視頻生成模型，開實現時序一致性與物理運動合理性

相關推薦

一年狂飆500%！“AI教母”李飛飛再造神話，World Labs50 億美元估值劍指世界模型

Meta Llama “造假” 醜聞：楊立昆揭露扎克伯格的AI新佈局

騰訊炸場！10億參數文生3D動作神器開源，遊戲NPC一鍵“活”了！

LeCun再創業！新公司估值247億，CEO卻不是他！

Runway發佈通用世界模型GWM-1，用像素預測構建可推理的虛擬世界