最近,潞晨 Open-Sora 團隊在720p 高清文生視頻質量和生成時長上實現了突破性進展,他們不僅在720p高清視頻質量和生成時長上搞了個大新聞,還順手把這寶貝開源了,讓整個社區都沸騰了!

image.png

毫不誇張地說,他們的開源項目讓視頻生成變得像點外賣一樣簡單。自從3月份亮相以來,它在GitHub上已經攬獲了17.5K的星星,火得一塌糊塗!

開源地址:https://github.com/hpcaitech/Open-Sora

Open-Sora能夠一鍵生成16秒720p高清視頻,無論是精緻的人物肖像,還是炫酷的科幻大片,亦或是生動有趣的動畫,流暢的變焦效果,它都能輕鬆應對。這不,連英偉達入股的AI公司Lambda Labs都基於Open-Sora模型權重,打造了一個數字樂高宇宙,讓樂高迷們找到了創意的新天地。

潞晨團隊不僅開源了模型權重,還在GitHub上曬出了技術路線,讓每個玩家都能成爲視頻大模型的掌控者。這份技術報告,深度剖析了模型訓練的核心和關鍵,從視頻壓縮網絡到擴散模型算法,再到可控性,他們用1.1B的擴散生成模型,解決了視頻模型訓練的痛點。

image.png

報告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

視頻壓縮網絡的引入,是OpenAI的Sora同款方法。它能在時間維度上進行4倍壓縮,無需抽幀,可以使用原始FPS生成視頻。團隊還提出了一個簡單的視頻壓縮網絡(即VAE),它能首先在空間維度上實現8x8倍的壓縮,再從時間維度上壓縮4倍。

Stable Diffusion3的最新擴散模型,通過rectified flow技術,提升了生成質量。潞晨團隊提供的技術包括整流訓練、Logit-norm時間步長採樣等,加快了模型訓練速度,減少了推理等待時間。

報告中還透露了模型訓練的核心細節,包括數據清洗、模型調優技巧,以及模型評估體系的構建。他們甚至提供了一鍵部署的Gradio應用,支持多種參數調節。

潞晨Open-Sora的開源,打破了閉環,爲文生視頻的創新和發展注入了活力。用戶從內容消費者轉變爲創造者,企業用戶解鎖了自主開發新技能。