在計算機視覺和圖形學中,3D 形狀的抽象是一個基礎且關鍵的研究領域。通過將複雜的3D 形狀分解爲簡單的幾何單位,研究者能夠更好地理解人類視覺感知的機制。

然而,現有的3D 生成方法通常無法滿足機器人操作或場景理解等任務對語義深度和可解釋性的要求。傳統的形狀抽象方法往往面臨過度細分或缺乏泛化能力的問題。
PrimitiveAnything:革命性框架
騰訊 AIPD 與清華大學的研究團隊聯合推出了 PrimitiveAnything 框架,旨在將形狀抽象重新定義爲原始組件生成任務。該框架採用解碼器式的變換器,能夠根據形狀特徵生成可變長度的原始組件序列,極大地提升了幾何準確性和學習效率。
PrimitiveAnything 的核心在於其統一的、無歧義的參數化方案,能夠支持多種原始形狀類型。這一創新設計使得框架能夠有效捕捉複雜形狀是如何被分解爲更簡單的組件,從而更符合人類的直觀理解。

自動迴歸生成:高效重構
PrimitiveAnything 通過自動迴歸的方式生成3D 形狀。每個原始組件的類型、位置、旋轉和縮放等屬性被編碼並輸入到變換器中,以預測下一個組件。該框架使用級聯解碼器來建模屬性間的依賴關係,確保生成過程的一致性。
在訓練過程中,PrimitiveAnything 結合了交叉熵損失、Chamfer 距離(用於重構準確性)和 Gumbel-Softmax(用於可微採樣),直到生成一個結束標記爲止。這一流程能夠靈活且類人地分解複雜的3D 形狀。
人類原始組件數據集:全面評估
爲驗證框架的有效性,研究團隊構建了一個大規模的 HumanPrim 數據集,其中包含12萬樣本及手動註釋的原始組件。通過多項指標如 Chamfer 距離、地球移動者距離、Hausdorff 距離等進行評估,PrimitiveAnything 在重構準確性和與人類抽象模式的一致性上均表現優異。
此外,該框架支持從文本或圖像輸入生成3D 內容,用戶能夠輕鬆編輯生成結果,具備高建模質量,並實現超過95% 的存儲節省,特別適合於高效的互動3D 應用。
結論:高效便捷的3D 生成
PrimitiveAnything 框架通過將3D 形狀抽象視爲序列生成任務,充分利用人類設計的原始組件,成功捕捉到直觀的分解模式。該框架在各種物體類別中都能實現高質量的生成,顯示出強大的泛化能力。
憑藉其高效和輕量化的特性,PrimitiveAnything 非常適合用於遊戲等需要性能和操作簡便性的用戶生成內容應用。
demo:https://huggingface.co/spaces/hyz317/PrimitiveAnything
