近日,科技巨頭蘋果公司再次展現了其強大的技術創新能力,推出了一種名爲Matryoshka Diffusion Models(MDM)的全新圖像和視頻生成方法,這一突破性技術被形象地稱爲"套娃擴散模型"。

MDM的名字源自俄羅斯套娃,這個巧妙的命名不僅充滿趣味性,更體現了其核心技術理念——將小的結構嵌套在大的結構之中。就像每個套娃裏都藏着一個更小但同樣精緻的套娃一樣,MDM能夠在不同分辨率下同時處理圖像,實現從低清晰度草圖到高清晰度細節的無縫生成。

QQ截圖20240809114448.jpg

這種創新方法的魅力在於它能同時駕馭多個分辨率的圖像處理。想象一下,就好像有一羣技藝精湛的畫家,每個人專注於畫布的不同區域,卻又能默契配合,共同創作出一幅精美絕倫的藝術品。MDM通過在多個分辨率上進行聯合去噪的技術,使得生成的圖像細節更加豐富,更具真實感,大大提升了圖像的整體質量。

MDM的核心架構被稱爲NestedUNet,這一設計理念進一步強化了"套娃"的概念。在這個架構中,每一層級都包含了一個更小但功能完整的子結構,就像套娃中的每一個都是獨立完整的。這種獨特的設計使得MDM在處理小規模輸入時,能夠充分利用高層次的特徵和參數,從而實現更高效的學習和生成過程。

QQ截圖20240809110221.jpg

目前,高質量圖像和視頻生成模型普遍面臨着巨大的計算和優化挑戰。傳統方法要麼在像素級別上逐步生成,要麼先訓練一個壓縮圖像模型,再在低分辨率圖像上進行處理。而MDM的訓練過程則更像是循序漸進地教導一個孩子學習走路,從蹣跚學步到健步如飛。它採用了一種漸進式訓練方法,從低分辨率開始,逐步過渡到高分辨率,這種方法讓模型在面對新的高分辨率圖像時表現得更加穩定和高效。

image.png

蘋果公司的研究團隊通過一系列基準測試,充分展示了MDM的強大實力。無論是在類條件圖像生成,還是文本到圖像、文本到視頻的轉換應用中,MDM都表現出了卓越的性能。特別值得一提的是,即使在僅有1200萬像素的CC12M數據集上訓練,MDM也展現出了驚人的零樣本泛化能力,這意味着它能夠在沒有見過的場景中表現出色。

研究結果顯示,MDM能夠生成高達1024x1024像素分辨率的圖像,而且即使在相對有限的數據條件下,它也能出色地完成任務,生成符合要求的高質量圖像。這一特性極大地拓展了AI圖像生成技術的應用範圍,爲創意產業、設計行業等領域帶來了新的可能性。

儘管MDM在圖像和視頻生成領域已經取得了令人矚目的成就,但這可能只是冰山一角。未來的MDM有望變得更加智能,能夠理解更復雜的上下文信息,生成更加真實、多樣化的內容。我們可以期待,這項技術將在虛擬現實、增強現實、電影製作、遊戲開發等多個領域發揮重要作用。

蘋果公司推出的這項"套娃擴散模型"技術,無疑爲AI圖像生成領域帶來了一股清新的技術風潮。它不僅提高了圖像生成的效率和質量,還爲整個行業的發展指明瞭新的方向。隨着技術的不斷完善和應用的深入,我們有理由相信,MDM將在未來的數字創意世界中扮演越來越重要的角色,爲我們帶來更多令人驚歎的視覺體驗。

項目頁:https://top.aibase.com/tool/ml-mdm

論文:https://arxiv.org/pdf/2310.15111