北京智源人工智能研究院(BAAI)近日宣佈推出一款創新的3D生成模型See3D,該模型能夠利用大規模無標註的互聯網視頻進行學習。這一技術突破標誌着向“See Video, Get3D”的理念邁進了重要一步。See3D模型不依賴於傳統的相機參數,而是採用視覺條件技術,僅通過視頻中的視覺線索生成相機方向可控且幾何一致的多視角圖像。這種方法避免了昂貴的3D或相機標註的需求,能夠高效地從互聯網視頻中學習3D先驗。
See3D模型支持從文本、單視圖和稀疏視圖到3D的生成,並能夠進行3D編輯與高斯渲染。該模型、代碼和Demo已經開源,供更多的技術細節參考。See3D的效果展示包括解鎖3D互動世界、基於稀疏圖片的3D重建、開放世界3D生成和基於單視圖的3D生成。這些功能使得See3D在多種3D創作應用中展現出廣泛的適用性。
研究動機源於3D數據的侷限性,傳統的3D數據採集過程耗時且成本高昂,而視頻則因其包含多視角關聯性和相機運動信息,成爲揭示3D結構的有力工具。See3D提出的解決方案包括數據集構建、模型訓練和3D生成框架。團隊自動篩選視頻數據,構建了涵蓋1600萬視頻片段、3.2億幀圖像的WebVi3D數據集。See3D模型通過向掩碼視頻數據添加時間依賴噪聲,生成純粹的2D視覺信號,支持可擴展的多視圖擴散模型訓練,實現了無需相機條件的3D生成。
See3D的優勢在於數據擴展性、相機可控性和幾何一致性。其訓練數據源自海量互聯網視頻,構建的多視圖數據集在規模上實現了數量級的提升。模型支持在任意複雜的相機軌跡下的場景生成,並保持前後幀視圖的幾何一致性。
通過擴大數據集規模,See3D爲3D生成技術的發展提供了新的思路,希望這項工作能夠促進3D研究社區對大規模無相機標註數據的關注,降低3D數據採集的成本,並縮小與現有閉源3D解決方案之間的差距。
項目地址: https://vision.baai.ac.cn/see3d