蘋果公司在Hugging Face上放出了一顆重磅炸彈,開放了他們去年的論文4M 模型的演示。該模型能夠處理和生成多種模態內容,包括文本、圖像和3D 場景。一個模型就可以將圖片中的所有信息拆解出來,包括深度圖、線稿等。AIbase拿之前生成的古風意境圖片測試了一下,確實挺牛,圖片上傳後,很快就獲得了以下拆解信息圖:

QQ截圖20240705100442.jpg

只要上傳一張照片,你就可以輕鬆獲得這張照片的所有信息,例如這張圖的主要輪廓,畫面主要色調,圖片尺寸等等。

這對蘋果來說,可以算是在研發領域保密傳統上的一次大膽轉身。他們不僅在Hugging Face這個開源AI的舞臺上展示了自家的AI實力,更是向開發者們拋出了橄欖枝,希望圍繞4M構建起一個生態系統。4M的多模態架構,預示着蘋果生態裏可能會出現更多連貫且多功能的AI應用,比如Siri能更智能地處理複雜查詢,或者Final Cut Pro能根據你的語言指令自動剪輯視頻。

但是,4M的面世也帶來了數據實踐和AI倫理的挑戰。蘋果一直標榜自己是用戶隱私的守護者,但面對這樣一個數據密集型的AI模型,他們的立場會不會受到考驗?蘋果需要小心翼翼地平衡,確保在推動技術進步的同時,用戶的信任不會受到損害。

讓我們來簡單瞭解一下4M的技術原理。4M最大的亮點在於它的"大規模多模態屏蔽建模"訓練方法。這種訓練方式能夠同時處理多種視覺模態,無論是圖像、語義還是幾何信息,都能轉化爲統一的tokens,實現模態間的無縫對接。

在訓練過程中,4M採用了一種巧妙的方式:隨機選擇一部分標記作爲輸入,另一部分作爲目標,通過這種方式實現了訓練目標的可擴展性。這意味着,無論是圖片還是文本,對4M來說都只是一串數字標記,這種設計大大提升了模型的通用性。

4M的訓練數據和方法同樣值得一提。它使用了全球最大的開源數據集之一CC12M,雖然這個數據集數據豐富,但標註信息並不完善。爲了解決這個問題,研究人員採用了弱監督僞標籤的方法,利用CLIP、MaskRCNN等技術對數據集進行全面預測,再將預測結果轉化爲tokens,爲4M的多模態兼容打下了基礎。

經過廣泛的實驗和測試,4M已經證明了自己能夠直接執行多模態任務,無需進行大量的特定任務預訓練或微調。這就像是給了AI一個多模態的瑞士軍刀,讓它能夠靈活應對各種挑戰。

演示地址:https://huggingface.co/spaces/EPFL-VILAB/4M