蘋果公司的機器學習研究團隊最近研發出了一種名爲 “STARFlow” 的全新 AI 圖像生成系統。這項技術可能會挑戰目前主流的擴散模型,後者是像 DALL-E 和 Midjourney 等流行圖像生成器的核心。這項突破性進展在上週的一篇研究論文中進行了詳細介紹,研究團隊在開發過程中與多所學術機構進行了合作。

STARFlow 的核心創新在於將正則化流和自迴歸變換器結合,研究團隊表示,這種方法在高分辨率圖像生成上實現了競爭力的表現。正如研究團隊的成員所指出的,STARFlow 在高分辨率圖像生成的成功演示,標誌着在這一領域的一次重要突破。
蘋果面臨着越來越大的競爭壓力,尤其是在人工智能領域。儘管在週一的全球開發者大會上,蘋果推出了一些更新,但外界普遍認爲這些變化不夠顯著。相比之下,谷歌和 OpenAI 在生成式 AI 方面的進展引發了更大的關注。
在技術細節上,STARFlow 通過採用 “深淺設計” 來克服現有正則化流方法的侷限性。這種設計使用深度變換器塊來捕獲大部分模型的表現能力,同時輔以少量計算效率高的淺層變換器塊。此外,STARFlow 還在預訓練自編碼器的潛在空間中操作,這使得模型能夠處理圖像的壓縮表示,從而提高了效率。
與傳統的擴散模型不同,STARFlow 保持了正則化流的數學特性,使得在連續空間中能夠實現 “精確的最大似然訓練”,而無需進行離散化處理。這一特性對需要精確控制生成內容的應用場景至關重要,尤其是在企業應用和設備內 AI 功能的開發中。
蘋果一直在與領先的學術機構合作,以推動其 AI 能力的提升。這項研究的共同作者之一,來自喬治亞理工學院的博士生 Tianrong Chen,就在這一領域擁有豐富的專業知識。研究團隊強調,他們的模型是一個端到端的正則化流,區別於那些爲了提升性能而犧牲數學可操作性的混合方法。
這項技術研究雖然在學術上取得了顯著進展,但蘋果是否能將這些研究成果轉化爲實際的消費者功能,仍然是一個需要回答的問題。在一個曾經以 iPhone 等產品引領潮流的公司面前,創新的速度也顯得尤爲關鍵。
論文:https://arxiv.org/pdf/2506.06276
劃重點:
🌟 STARFlow 是蘋果新開發的 AI 圖像生成系統,能夠與 DALL-E 和 Midjourney 等主流模型競爭。
💡 該系統結合了正則化流和自迴歸變換器,通過深淺設計和潛在空間操作來提高生成效率。
📈 蘋果與學術機構的合作正在推動其 AI 技術的進步,未來在實際應用中的表現備受期待。
