近日,OpenAI 的研究人員發佈了一項令人振奮的研究成果,介紹了一種全新的連續時間一致性模型(sCM)。這一模型在生成多媒體內容(如圖像、視頻和音頻)的速度上實現了飛躍,相較於傳統的擴散模型,速度提高了整整50倍。具體來說,sCM 能夠在不到0.1秒的時間內生成一幅圖像,而傳統擴散模型則往往需要超過5秒。
研究團隊通過這項技術,成功地在僅需兩次採樣步驟的情況下,生成出高質量的樣本。這一創新使得生成過程更爲高效,而不會犧牲樣本的質量。文章由 OpenAI 的兩位研究人員 —Lu Cheng 和 Yang Song 共同撰寫,並已在 arXiv.org 上發表,雖然尚未經過同行評審,但其潛在影響不容小覷。
Yang Song 在2023年的一篇論文中首次提出了 “一致性模型” 的概念,這爲 sCM 的發展奠定了基礎。儘管擴散模型在生成真實感圖像、3D 模型、音頻和視頻方面表現出色,但其採樣效率不高,通常需要數十到數百個步驟,這讓其在實時應用中顯得捉襟見肘。
採樣速度更快
sCM 模型的最大亮點是,它能在不增加計算負擔的情況下,實現更快的採樣速度。OpenAI 的最大 sCM 模型擁有15億個參數,在一塊 A100GPU 上,生成樣本的時間僅爲0.11秒。與擴散模型相比,這導致掛鐘時間加快了50倍,使實時生成式 AI 應用更加可行。
需要更少的計算資源
在樣本質量方面,sCM 在 ImageNet512×512數據集上經過訓練,達到了1.88的 Fréchet Inception Distance(FID)分數,這與頂級擴散模型相差不到10%。通過與其他先進生成模型進行廣泛基準測試,研究團隊證明了 sCM 在提供頂尖結果的同時,計算開銷也顯著減少。
未來,sCM 模型的快速採樣和可擴展性將爲多個領域的實時生成 AI 應用開啓新的可能性。從圖像生成到音頻和視頻合成,sCM 都提供了一個實用的解決方案,滿足了對快速、高質量輸出的需求。同時,OpenAI 的研究還暗示了進一步優化系統的潛力,可能會根據不同產業的需求來加速模型的性能。
官方博客:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
論文:https://arxiv.org/html/2410.11081v1
劃重點:
📈 新型 sCM 模型的速度提升了50倍,圖像生成時間縮短至0.1秒。
🖼️ 僅需兩步採樣,sCM 能生成高質量樣本,效率顯著提高。
⚙️ 未來應用廣泛,包括實時圖像、音頻和視頻生成,潛力巨大。