今日,騰訊混元大模型團隊正式發佈了其最新視頻生成模型 HunyuanVideo1.5,標誌着視頻生成技術的又一重要突破。這款基於 Diffusion Transformer(DiT)架構的輕量級模型,參數量達8.3B,能夠生成5至10秒的高清晰度視頻,已在騰訊的「元寶」平臺上線,向用戶開放體驗。

QQ20251121-140604.png

HunyuanVideo1.5支持多種生成方式,用戶可以通過輸入文字描述(Prompt)實現 “文生視頻”,也可以通過上傳圖片與文字結合,輕鬆將靜態圖像轉化爲動態視頻。這一創新技術不僅滿足了中英文輸入的需求,還展示了圖像與視頻的一致性,確保生成視頻在色調、光影、場景、主體及細節等方面與原圖高度匹配。

在具體應用中,用戶可以根據提示詞生成複雜的場景。例如,一則提示詞描述了一隻手提箱裏如何生長出迷你英式花園,模型能夠精準呈現這一過程,表現出高水平的指令理解與遵循能力。此外,HunyuanVideo1.5支持寫實、動畫等多種風格,能夠在視頻中生成中英文文字,極大地豐富了內容創作的可能性。

技術上,HunyuanVideo1.5採用了創新的 SSTA 稀疏注意力機制,顯著提升了推理效率,並結合多階段漸進式訓練策略,在運動連貫性和語義遵循等關鍵維度達到了商用水平。這一模型的部署門檻顯著降低,只需14G 顯存的消費級顯卡即可流暢運行,使每位開發者和創作者都能參與到視頻生成的創新中。

QQ20251121-140620.png

據悉,此前視頻生成領域的開源 SOTA 旗艦模型通常要求超過20B 的參數和50GB 顯卡的支持,HunyuanVideo1.5的發佈不僅在生成效果上實現了質的飛躍,同時也在性能與尺寸之間找到了平衡。目前,模型已上傳至 Hugging Face 和 GitHub,歡迎廣大開發者下載體驗。

隨着 HunyuanVideo1.5的問世,騰訊進一步鞏固了其在人工智能和視頻生成領域的領導地位,爲內容創作者提供了更強大的工具和無限的創作可能性。未來,隨着技術的不斷髮展,視頻生成的應用場景將更加廣泛,期待 HunyuanVideo1.5能爲行業帶來新的變革。