蘋果發佈多模態 AI 新寵 “Manzano”：視覺與創意的完美融合

近日科技媒體 Appleinsider，蘋果發表了一篇磅研究論文，介紹了最新研發的多模態 AI 模型 “zano”。這一模型將 “視覺” 和 “文本生成圖像” 這兩項功能有機結合，標誌 AI 技術的又一次重大突破。

“Manzano” 的核心創新在於其 “雙修” 能力:它不僅能夠像人類一樣精準地圖像內容能根據文本生成高質量的圖片。這技術的前無疑是令人振奮的在行業內，能同時滿足兩項需求的模型並多見，而現有模型往在畫質理解能力之間存在妥協。

爲了克服這一難題，Manzano 採用了的三段式架構。首先引入了一種 “混合器”，能同時生成連續和離散的視覺表示接着，強大的大語言模型（LLM）對像的義內容進行預測，通過 “擴散解碼器” 進行像素級一設計使得 Manzano 在和圖方面都表現出，甚至能夠處理一些複雜任務，比如深估計、風格移和圖像修復。

數據顯示，Manzano 在對反直覺和違物理常識的複雜指令時，表現非常出色。例如，當生成 “一隻鳥在大下方飛翔” 的畫面時，Manzano 的邏輯準確性與 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究團隊還測試了不同參數版本的模型，結果表明，隨着模型規模的擴大，其性能提升依然顯著。

儘管目前 zano 仍處於研究尚被直接應用於 iPhone 或 Mac 設備，但這無疑顯示出蘋果在構建更強大的底層方面的雄心。未來，業內普遍認爲 Manzano 技術很可能會融入蘋果即將推出的 “圖樂園 Image Playground” 功能，爲用戶提供更智能的修圖體驗和更想象力畫面生成能力，從而進一步鞏固蘋果在端 AI 領域的競爭力。

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

澳大利亞助理部長查爾頓在悉尼AI安全論壇上警告，當前AI模型在測試中已出現作弊、欺騙、擅自行動等危險行爲。他強調必須趁問題還限於實驗室階段提前進行人工干預，避免技術落地後被動應對，並指出公衆對AI的信任度依然較低。

蘋果發佈多模態 AI 新寵 “Manzano”：視覺與創意的完美融合

相關推薦

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

告別純文本！Skill-Omni重塑多模態智能體經驗範式

Claude Sonnet 5 上線後遭大量投訴：頻繁反駁、說教成風

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈

行業震動：Meta被曝誘導競品AI測試極端心理敏感話題