據 AIbase 報道,Meta AI 的研究團隊近日發佈了一項名爲 Pixio 的圖像模型研究,證明了即使採用更簡單的訓練路徑,也能在深度估計和3D 重建等複雜視覺任務中展現出卓越的性能。長期以來,學術界普遍認爲掩碼自編碼器(MAE)技術在場景理解上遜色於 DINOv2或 DINOv3等複雜算法,但 Pixio 的出現打破了這一固有認知。

Pixio 的核心邏輯源於對2021年 MAE 框架的深度改良。研究人員發現,原始設計中較弱的解碼器限制了編碼器的表現,因此他們顯著增強了解碼器的功能,並擴大了圖像遮罩區域。通過將細小的遮罩方塊改爲大面積連續區域,Pixio 被迫放棄簡單的像素複製,轉而必須真正“理解”圖像中的物體共現、3D 透視以及反射等空間關係。此外,通過引入多個用於聚合全局屬性的類別標記,該模型能更精準地捕捉場景類型、相機角度及光照信息。

在訓練策略上,Pixio 展現出極高的純粹性。不同於 DINOv3針對特定基準測試(如 ImageNet)進行重複優化,Pixio 從網絡收集了20億張圖像,並採用動態頻率調整:減少簡單產品照的權重,增加複雜場景的訓練頻次。這種不針對測試集“刷分”的做法,反而賦予了模型更強的遷移能力。

數據對比顯示,僅擁有6.31億參數的 Pixio 在多項指標上超越了8.41億參數的 DINOv3。在單目深度估計中,其準確率提升了16%;在3D 重建任務中,僅憑單張圖像訓練的 Pixio 甚至優於使用八視角訓練的 DINOv3。同時,在機器人學習領域,Pixio 也以78.4% 的成功率領先於 DINOv2。儘管研究團隊承認人工掩蔽存在侷限性,並計劃向視頻預測方向探索,但 Pixio 目前取得的突破已足以證明:迴歸像素重建的本質,往往能通向更深層的視覺理解。
