近日科技媒體 Appleinsider,蘋果發表了一篇磅研究論文,介紹了最新研發的多模態 AI 模型 “zano”。這一模型將 “視覺” 和 “文本生成圖像” 這兩項功能有機結合,標誌 AI 技術的又一次重大突破。

“Manzano” 的核心創新在於其 “雙修” 能力:它不僅能夠像人類一樣精準地圖像內容能根據文本生成高質量的圖片。這技術的前無疑是令人振奮的在行業內,能同時滿足兩項需求的模型並多見,而現有模型往在畫質理解能力之間存在妥協。

image.png

爲了克服這一難題,Manzano 採用了的三段式架構。首先引入了一種 “混合器”,能同時生成連續和離散的視覺表示接着,強大的大語言模型(LLM)對像的義內容進行預測,通過 “擴散解碼器” 進行像素級一設計使得 Manzano 在和圖方面都表現出,甚至能夠處理一些複雜任務,比如深估計、風格移和圖像修復。

數據顯示,Manzano 在對反直覺和違物理常識的複雜指令時,表現非常出色。例如,當生成 “一隻鳥在大下方飛翔” 的畫面時,Manzano 的邏輯準確性與 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究團隊還測試了不同參數版本的模型,結果表明,隨着模型規模的擴大,其性能提升依然顯著。

儘管目前 zano 仍處於研究尚被直接應用於 iPhone 或 Mac 設備,但這無疑顯示出蘋果在構建更強大的底層方面的雄心。未來,業內普遍認爲 Manzano 技術很可能會融入蘋果即將推出的 “圖樂園 Image Playground” 功能,爲用戶提供更智能的修圖體驗和更想象力畫面生成能力,從而進一步鞏固蘋果在端 AI 領域的競爭力。