騰訊宣佈開源其新研發的圖像轉視頻生成框架 ——HunyuanVideo-I2V。該模型的發佈是在其成功開源 HunyuanVideo 之後的又一重要進展,旨在推動開放源代碼社區的深入探索。

HunyuanVideo-I2V 結合了先進的視頻生成技術,能夠將靜態圖像轉換爲生動的視頻內容,爲創作者提供了更多的可能性。用戶只需上傳一張圖片,並簡單描述希望畫面的動態效果,便可以生成一段五秒的短視頻。這款模型的特點在於它不僅能讓靜態圖片 “動起來”,還能夠自動配上背景音效,極大地增強了視頻的趣味性和吸引力。
HunyuanVideo-I2V 利用了一個預訓練的多模態大語言模型作爲文本編碼器,顯著增強了模型對輸入圖像語義內容的理解能力。這意味着,用戶輸入的圖像能夠通過模型生成語義圖像標記,這些標記與視頻潛在標記相結合,從而實現更全面的全注意力計算。通過這種方式,系統能夠最大限度地發揮圖像和文本模態之間的協同作用,確保從靜態圖像生成的視頻內容更具連貫性和真實感。
爲了讓更多用戶體驗這一功能,混元 AI 視頻官網已經上線,用戶可以直接訪問網站進行操作。此外,企業和開發者也可以通過騰訊雲申請 API 接口,將該技術融入自己的應用中。這款圖生視頻模型是混元文生視頻模型開源工作的延續,模型總參數量達 130 億,適合生成多種類型的角色和場景,涵蓋寫實視頻、動漫角色和 CGI 角色等。
在具體使用過程中,用戶還可以上傳人物圖片,並輸入希望其 “對口型” 的文字或音頻,系統就能夠讓圖片中的人物 “說話” 或 “唱歌”。與此同時,混元還推出了 “動作驅動” 功能,用戶可以一鍵生成相應的舞蹈視頻,提升創作的多樣性和趣味性。
值得一提的是,此次開源的圖生視頻模型已經在 Github 和 HuggingFace 等主流開發者社區發佈,開發者可以下載相關內容進行試驗與開發。開源內容包括模型的權重、推理代碼以及 LoRA 訓練代碼,這些都爲開發者提供了更多的可能性,以便在此基礎上訓練專屬的 LoRA 模型。
自開源以來,混元視頻生成模型的熱度不斷上升,去年 12 月更是登頂 HuggingFace 的全站趨勢榜第一,Github 上的 Star 數已超過 8.9K。許多開發者也積極爲 Hunyuanvideo 製作插件與衍生模型,目前已經積累超過 900 個衍生版本。早前開源的混元 DiT 文生圖模型同樣表現不俗,衍生模型數量達 1600 多個。
官網:https://video.hunyuan.tencent.com/
github:https://github.com/Tencent/HunyuanVideo-I2V
huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V
