騰訊混元發佈圖生視頻模型HunyuanVideo-I2V，並上線對口型等玩法

騰訊宣佈開源其新研發的圖像轉視頻生成框架 ——HunyuanVideo-I2V。該模型的發佈是在其成功開源 HunyuanVideo 之後的又一重要進展，旨在推動開放源代碼社區的深入探索。

HunyuanVideo-I2V 結合了先進的視頻生成技術，能夠將靜態圖像轉換爲生動的視頻內容，爲創作者提供了更多的可能性。用戶只需上傳一張圖片，並簡單描述希望畫面的動態效果，便可以生成一段五秒的短視頻。這款模型的特點在於它不僅能讓靜態圖片 “動起來”，還能夠自動配上背景音效，極大地增強了視頻的趣味性和吸引力。

HunyuanVideo-I2V 利用了一個預訓練的多模態大語言模型作爲文本編碼器，顯著增強了模型對輸入圖像語義內容的理解能力。這意味着，用戶輸入的圖像能夠通過模型生成語義圖像標記，這些標記與視頻潛在標記相結合，從而實現更全面的全注意力計算。通過這種方式，系統能夠最大限度地發揮圖像和文本模態之間的協同作用，確保從靜態圖像生成的視頻內容更具連貫性和真實感。

爲了讓更多用戶體驗這一功能，混元 AI 視頻官網已經上線，用戶可以直接訪問網站進行操作。此外，企業和開發者也可以通過騰訊雲申請 API 接口，將該技術融入自己的應用中。這款圖生視頻模型是混元文生視頻模型開源工作的延續，模型總參數量達 130 億，適合生成多種類型的角色和場景，涵蓋寫實視頻、動漫角色和 CGI 角色等。

在具體使用過程中，用戶還可以上傳人物圖片，並輸入希望其 “對口型” 的文字或音頻，系統就能夠讓圖片中的人物 “說話” 或 “唱歌”。與此同時，混元還推出了 “動作驅動” 功能，用戶可以一鍵生成相應的舞蹈視頻，提升創作的多樣性和趣味性。

值得一提的是，此次開源的圖生視頻模型已經在 Github 和 HuggingFace 等主流開發者社區發佈，開發者可以下載相關內容進行試驗與開發。開源內容包括模型的權重、推理代碼以及 LoRA 訓練代碼，這些都爲開發者提供了更多的可能性，以便在此基礎上訓練專屬的 LoRA 模型。

自開源以來，混元視頻生成模型的熱度不斷上升，去年 12 月更是登頂 HuggingFace 的全站趨勢榜第一，Github 上的 Star 數已超過 8.9K。許多開發者也積極爲 Hunyuanvideo 製作插件與衍生模型，目前已經積累超過 900 個衍生版本。早前開源的混元 DiT 文生圖模型同樣表現不俗，衍生模型數量達 1600 多個。

官網：https://video.hunyuan.tencent.com/

github：https://github.com/Tencent/HunyuanVideo-I2V

huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

騰訊混元發佈圖生視頻模型HunyuanVideo-I2V，並上線對口型等玩法

相關推薦

騰訊混元再迎大將：頂級科學家龐天宇加盟，領銜多模態強化學習

騰訊混元大模型迎來頂級科學家：清華博士龐天宇加盟，領銜多模態強化學習

圖像編輯進入“思考”時代：騰訊發佈混元圖像 3.0 圖生圖模型

馬化騰年會放話:元寶春節豪分10億現金，欲重現微信紅包“珍珠港偷襲”

騰訊“元寶派”開啓內測：AI 深度潛入微信、QQ 社交圈