4月16日,螞蟻靈波科技正式宣佈開源流式三維重建模型 LingBot-Map。該模型突破性地實現了僅依靠單個普通 RGB 攝像頭,即可在視頻採集過程中實時估計相機位姿並重建場景三維結構。這一進展爲機器人導航、自動駕駛及 AR 硬件等需要即時空間感知的應用場景,提供了高效、穩定且連續的在線建圖能力。

4aca21381ed84f28da2527af904d68b8.jpg

技術層面,LingBot-Map 採用流式處理架構,改變了傳統方法需預先採集完整序列再統一處理的侷限,實現了邊接收畫面邊輸出定位與結構的實時交互。在國際主流評測中,該模型表現出色:在極具挑戰的 Oxford Spires 數據集上,其軌跡誤差僅爲此前最優流式方法的三分之一,甚至優於部分離線處理算法。性能指標顯示,LingBot-Map 支持約20FPS 的實時推理,並能在超萬幀的長視頻運行中保持精度幾乎不衰減,兼顧了高精度、高速度與長時穩定性。

此次 LingBot-Map 的發佈,是螞蟻靈波繼深度估計(Depth)、大語言動作模型(VLA)及世界模型(World)等系列成果後的又一重要動作。通過補齊實時空間理解這一核心環,螞蟻靈波進一步夯實了其具身智能“基座”的完整性。該模型的開源不僅降低了高精度三維感知的硬件門檻,更將加速具身智能設備在複雜動態環境中的感知與決策進化。

下載鏈接:

Hugging Face:https://huggingface.co/robbyant/lingbot-map

ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map