蘋果機器學習團隊與南京大學和香港科技大學合作,推出了一款名爲 Matrix3D 的先進 AI 模型。該模型的主要功能是從少量的2D 照片中重建真實的物體和場景,爲用戶提供高質量的3D 輸出。

用戶只需提供三張照片,Matrix3D 便能自動生成詳細的3D 重建效果。這一過程不僅簡化了3D 建模的操作步驟,也爲各類應用領域帶來了新的機遇,同時推動了 AI 技術的進一步發展。
在傳統的3D 建模中,通常需要使用攝影測量技術,通過多張照片進行測量和建模。然而,目前的流程往往依賴於多個獨立模型,例如姿態估計和深度預測,這種分散的方法容易導致效率低下和誤差。Matrix3D 則改變了這一傳統做法,它將圖像、相機參數(如拍攝角度和焦距)以及深度數據等所有環節統一整合,採用一個統一的架構來處理這些信息,減少了中間步驟,從而使得重建過程更加順暢可靠。研究人員指出,這種整合設計顯著降低了人爲錯誤的風險,並提高了整體性能。
在訓練方法上,Matrix3D 運用了掩碼學習策略,靈感來源於早期的 Transformer 基礎 AI 系統。這種技術通過隨機隱藏部分輸入數據,促使模型學習如何 “填補空白”,增強了其適應性。即使在數據集較小或不完整的情況下,Matrix3D 也能夠有效學習關鍵特徵。
測試結果顯示,Matrix3D 的表現非常出色。用戶只需輸入三張照片,該模型便可生成精細的3D 重建效果,涵蓋物體和整個環境。這爲沉浸式技術的應用提供了實質性的潛力。例如,在 Apple Vision Pro 等頭顯設備中,Matrix3D 能夠創建真實感十足的虛擬場景,從而提升用戶體驗。研究者認爲,這種能力將進一步推動元宇宙和增強現實的發展。
官方介紹:https://machinelearning.apple.com/research/large-photogrammetry-model
劃重點:
🌟 Matrix3D 是蘋果與南京大學、香港科技大學合作推出的 AI 模型,能從少量2D 照片中生成3D 場景。
📸 用戶只需提供三張照片,便可獲得高質量的3D 重建,簡化了操作流程。
🚀 Matrix3D 整合了多個處理步驟,提高了效率並減少了人爲錯誤,推動了 AI 技術的進一步發展。
