蘋果公司最近發佈了一篇重要論文,展示了他們在人工智能領域的最新進展。與業界普遍採用的擴散模型或自迴歸模型不同,蘋果選擇了一條被廣泛忽視的道路 —— 歸一化流(Normalizing Flows)技術。該技術的核心是通過數學變換,將真實世界的數據(例如圖像)轉化爲結構化的噪聲,並能將其恢復爲清晰的圖像樣本。

image.png

歸一化流的最大優勢在於它能夠精確計算生成圖像的概率,而這是許多擴散模型無法做到的。這使得歸一化流在那些對概率要求較高的任務中顯得格外重要。不過,這種技術的研發成本相對較高,且早期模型常常存在模糊和缺乏細節的問題。

在此次研究中,蘋果推出了一種名爲 TarFlow(Transformer AutoRegressive Flow)的新型歸一化流模型。該模型的工作原理是將一張待生成的圖像分割成多個小塊,並逐塊生成相應的像素值。每個小塊的生成都依賴於已生成部分的內容,這樣可以有效避免將圖像壓縮爲固定詞彙表時造成的質量損失。

然而,TarFlow 在生成高分辨率圖像時仍面臨挑戰,因此蘋果提出了增強版的 STARFlow(Scalable Transformer AutoRegressive Flow)。該模型通過在 “潛空間” 中進行工作,首先生成圖像的壓縮表示,然後利用解碼器進行放大。這種方法不僅提升了生成效率,同時也避免了大量像素值的預測,先關注圖像的整體結構。

此外,STARFlow 在處理文本提示方面也有了顯著改進。它不再依賴於內建的文本編碼器,而是能夠調用現有的語言模型,比如谷歌的小型語言模型 Gemma,這樣就可以更靈活地處理用戶的語言指令。通過這種方式,STARFlow 能夠專注於圖像細節的生成與優化,進一步提升了生成圖像的質量。

蘋果在 AI 生圖領域的探索標誌着他們在技術創新上的持續努力,也爲未來的圖像生成技術提供了新的思路和方向。

劃重點:  

🌟 蘋果採用 “歸一化流” 技術開發新的 AI 生圖模型,區別於傳統的擴散模型。  

🖼️ TarFlow 模型通過拆分圖像塊生成,避免了壓縮造成的質量損失。  

🚀 STARFlow 在潛空間工作,並支持調用現有語言模型優化文本提示處理。