最近,杭州的科技公司羣核科技再次引起了行業關注,因其開源的空間理解模型 SpatialLM 被谷歌在一篇論文中點名感謝。這個模型的創新之處在於,它能讓機器人通過一段普通的視頻理解物理世界的幾何關係,標誌着機器人訓練領域的一次重大突破。
SpatialLM 的核心功能是將手機拍攝的視頻轉化爲三維空間佈局信息。用戶只需用手機錄製家中的佈局,SpatialLM 便能生成一個詳細的3D 場景,包括房間的結構、傢俱的位置和通道的寬度。這一過程大大降低了機器人訓練的成本,提高了訓練的效率。
在 GTC2025大會上,羣核科技同時展示了他們的虛擬訓練平臺 SpatialVerse。這個平臺結合了 SpatialLM 生成的數據,允許機器人在模擬環境中進行避障、抓取等訓練,從而形成從認知到行動的完整閉環。簡而言之,機器人通過這個系統不僅能 “看” 到空間佈局,還能理解如何在這些環境中進行操作。
SpatialLM 的工作原理並不複雜。它利用 MASt3R-SLAM 技術將視頻拆解爲無數幀,提取出沙發、桌子等物體的細節並構建成點雲模型。隨後,模型將這些數據轉化爲結構化的3D 佈局,記錄下每個物體的關鍵信息,如尺寸和位置。與傳統的訓練方法相比,SpatialLM 不僅節省了時間和資源,還提升了機器人的空間認知能力。
這項技術的獨特之處在於,它使機器人可以像人類一樣理解和處理複雜的環境變化。無論是家庭生活中的日常物品還是工作場所的工具,SpatialLM 都能幫助機器人快速適應並執行任務。這種能力對於提升機器人在真實環境中的表現至關重要,尤其是在當前的具身智能領域,許多技術依然面臨落地難題。
羣核科技通過開源 SpatialLM 和 SpatialVerse,正在重塑機器人訓練的未來,使其能夠在真實世界中靈活應對各種挑戰。
項目地址:https://top.aibase.com/tool/spatiallm