3月31日,螞蟻靈波科技正式開源大規模 RGB-D 深度數據集 LingBot-Depth-Dataset。該數據集包含300萬對高質量樣本,其中200萬對來自真實場景採集、100萬對由渲染生成,總規模達 2.71TB,覆蓋6款主流深度相機,是目前開源社區中規模最大的真實場景 RGB-D 數據集。此次開源將爲具身智能、空間感知和三維視覺等方向提供更豐富、更貼近真實應用的數據支撐。

(圖說:LingBot-Depth-Dataset 數據樣例。從上到下依次爲 RGB 圖像、傳感器原始深度圖和真值深度圖。該數據集同時提供原始深度與真值深度信息,爲相關模型在真實場景中的訓練和評估提供有力支撐。)
長期以來,公開深度數據集普遍存在規模有限、真實場景覆蓋不足、硬件設備單一等問題,不少數據以合成爲主,與真實傳感器在噪聲、空洞和材質表現上存在較大差異,在很大程度上制約了相關模型在真實環境中的應用。
LingBot-Depth-Dataset 有效填補了空間感知領域的數據空白,特別是提供了大規模基於真實場景拍攝的數據。這套數據集每條樣本均包含 RGB 圖像、傳感器原始深度圖和真值深度圖,可直接用於深度估計與深度補全任務的訓練和評估。數據集覆蓋 Orbbec335、335L 以及 Intel RealSense D405、D415、D435、D455共6款主流深度相機,有助於提升模型在不同設備和場景下的訓練、適配與評估。
據介紹,螞蟻靈波此前開源的高精度空間感知模型 LingBot-Depth,正是以該數據集作爲核心訓練數據。相比業界主流方法 PromptDA 與 PriorDA,LingBot-Depth 在室內場景中的深度預測誤差降低超過70%,在稀疏深度補全等任務中的誤差降低約47%。市售深度相機搭載該模型後,無需硬件升級,即可在透明玻璃、反光鏡面、逆光等複雜場景下輸出更完整、更平滑、邊緣更清晰的深度圖,且在部分場景中的表現超過業界頂級工業級深度相機。
對於高校、科研機構而言,這次開源不僅有助於降低數據採集與標註門檻,也有望加速相關技術從研究驗證走向真實應用。隨着機器人和具身智能加快進入實際場景,大規模、高質量、以真實採集爲主體的空間感知數據集,無疑將成爲行業持續進步的重要基礎設施。
