近日,DeepBeepMeep 團隊在 GitHub 上發佈了 Wan2.1GP,一個針對低端 GPU 用戶優化的視頻生成模型。該模型基於阿里巴巴的 Wan2.1,旨在爲缺乏高性能 GPU 資源的用戶提供強大的視頻生成能力。Wan2.1GP 的推出標誌着視頻生成技術的一個重要進步,尤其是在開放源代碼領域。

機器人上班打字1

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

Wan2.1GP 的主要特點包括其優異的性能和廣泛的適用性。該模型在多個基準測試中持續超越現有的開源模型和一些商業解決方案,展現出強大的競爭力。此外,T2V-1.3B 模型僅需8.19GB 的顯存,這使得幾乎所有消費級 GPU 都能運行。通過一臺 RTX4090顯卡,用戶能夠在約4分鐘內生成一段5秒的480P 視頻,性能表現甚至可與一些封閉源模型相媲美。

Wan2.1GP 不僅支持文本到視頻、圖像到視頻、視頻編輯等多種任務,而且還是首個能夠同時生成中英文文本的視頻模型。這一特性爲用戶的實際應用帶來了更多可能性。此外,該模型還搭載了強大的視頻變分自編碼器(VAE),能夠高效編碼和解碼任何長度的1080P 視頻,完好保留時間信息,爲視頻和圖像生成打下了堅實基礎。

爲了提升用戶體驗,Wan2.1GP 進行了多項優化,包括顯著降低內存和顯存需求,支持多種配置以適應不同性能的設備。用戶可以通過簡化的安裝流程,快速上手這一工具。隨着不斷的版本更新,Wan2.1GP 也逐步加入了更多實用功能,如 Tea Cache 支持、Gradio 界面改進等,進一步提高生成速度和使用便利性。

項目入口:https://github.com/deepbeepmeep/Wan2GP

劃重點:

👍 SOTA 性能:Wan2.1GP 在多個基準測試中表現優異,超過現有開源和商業解決方案。

🖥️ 兼容性強:僅需8.19GB 顯存,支持幾乎所有消費級 GPU,適合低端用戶。

📜 多任務支持:支持文本到視頻、圖像到視頻等多種生成任務,並具備中英文文本生成能力。