騰訊發佈全新視頻生成模型 HunyuanVideo1.5，降低視頻創作門檻

今日，騰訊混元大模型團隊正式發佈了其最新視頻生成模型 HunyuanVideo1.5，標誌着視頻生成技術的又一重要突破。這款基於 Diffusion Transformer（DiT）架構的輕量級模型，參數量達8.3B，能夠生成5至10秒的高清晰度視頻，已在騰訊的「元寶」平臺上線，向用戶開放體驗。

HunyuanVideo1.5支持多種生成方式，用戶可以通過輸入文字描述（Prompt）實現 “文生視頻”，也可以通過上傳圖片與文字結合，輕鬆將靜態圖像轉化爲動態視頻。這一創新技術不僅滿足了中英文輸入的需求，還展示了圖像與視頻的一致性，確保生成視頻在色調、光影、場景、主體及細節等方面與原圖高度匹配。

在具體應用中，用戶可以根據提示詞生成複雜的場景。例如，一則提示詞描述了一隻手提箱裏如何生長出迷你英式花園，模型能夠精準呈現這一過程，表現出高水平的指令理解與遵循能力。此外，HunyuanVideo1.5支持寫實、動畫等多種風格，能夠在視頻中生成中英文文字，極大地豐富了內容創作的可能性。

技術上，HunyuanVideo1.5採用了創新的 SSTA 稀疏注意力機制，顯著提升了推理效率，並結合多階段漸進式訓練策略，在運動連貫性和語義遵循等關鍵維度達到了商用水平。這一模型的部署門檻顯著降低，只需14G 顯存的消費級顯卡即可流暢運行，使每位開發者和創作者都能參與到視頻生成的創新中。

據悉，此前視頻生成領域的開源 SOTA 旗艦模型通常要求超過20B 的參數和50GB 顯卡的支持，HunyuanVideo1.5的發佈不僅在生成效果上實現了質的飛躍，同時也在性能與尺寸之間找到了平衡。目前，模型已上傳至 Hugging Face 和 GitHub，歡迎廣大開發者下載體驗。

隨着 HunyuanVideo1.5的問世，騰訊進一步鞏固了其在人工智能和視頻生成領域的領導地位，爲內容創作者提供了更強大的工具和無限的創作可能性。未來，隨着技術的不斷髮展，視頻生成的應用場景將更加廣泛，期待 HunyuanVideo1.5能爲行業帶來新的變革。

騰訊發佈全新視頻生成模型 HunyuanVideo1.5，降低視頻創作門檻

相關推薦

元寶推出 “一句話生視頻” 功能，讓視頻創作變得簡單有趣

騰訊元寶推出新功能：一句話或一張圖即可生成視頻！

騰訊 Q3 財報揭示 AI 生態新機遇，企業服務營收大幅增長

美團推出 LongCat-Video 視頻生成模型，原生支持5分鐘級連貫輸出

美團發佈 LongCat-Video 視頻生成模型，開實現時序一致性與物理運動合理性