在人工智能領域,3D視覺與空間理解技術正成爲推動具身智能、自主導航及虛擬現實等應用的關鍵。2025年3月,杭州羣核科技在GTC2025全球大會上宣佈正式開源其自主研發的3D視覺大語言模型 SpatialLM,引發業界廣泛關注。

這一模型以其強大的空間認知能力和低成本的數據處理方式,爲機器人訓練、建築設計及AR/VR等領域帶來了革命性突破。AIbase基於最新信息,整理並深入解析SpatialLM的技術亮點與行業影響。
SpatialLM:從手機視頻到物理正確的3D場景
SpatialLM是一款專爲三維空間理解設計的大語言模型,能夠基於普通手機或相機拍攝的視頻,快速生成物理正確的3D場景佈局。相較於傳統方法依賴昂貴的激光雷達或專業設備,SpatialLM通過處理多源點雲數據(如單目視頻序列、RGBD圖像或LiDAR傳感器),顯著降低了數據採集門檻。模型能夠精準識別場景中的建築元素(如牆壁、門窗)以及物體的語義邊界框(如“沙發 – 長1.8米 – 距牆0.5米”),並以結構化腳本語言輸出,爲機器賦予類似人類的空間認知能力。
其核心技術基於 MASt3R-SLAM,通過將視頻拆解爲幀,提取空間細節並生成高密度3D點雲。隨後,點雲編碼器將數據轉化爲緊湊特徵向量,大語言模型(LLM)進一步生成場景代碼,確保輸出的3D佈局符合物理規則(如“傢俱不能懸空”“通道寬度≥0.8米”)。這種多模態架構有效彌合了非結構化三維幾何數據與結構化表示之間的差距,爲複雜場景分析提供了高層次語義理解。
開源賦能:降低具身智能開發門檻
羣核科技此次開源的SpatialLM提供了兩種模型版本:基於Llama的 SpatialLM-Llama-1B 和基於Qwen的 SpatialLM-Qwen-0.5B,參數規模分別爲1億和0.5億,相比當前動輒百億參數的LLM顯得輕量高效。模型已在Hugging Face、GitHub及魔搭社區等平臺面向全球開發者開放,配備詳細教程與測試數據集(如SpatialLM-Testset,包含107個由單目RGB視頻重建的點雲數據)。開發者可通過簡單的Python腳本運行推理,並利用可視化工具(如Rerun)查看3D佈局結果。
開源舉措的意義在於爲具身智能領域提供了基礎訓練框架。羣核科技首席科學家周子寒表示:“SpatialLM旨在幫助不具備模型開發能力的機器人企業,通過微調快速提升空間理解能力。”結合羣核此前開源的空間智能平臺 SpatialVerse,SpatialLM可將現實場景轉化爲虛擬訓練環境,生成億萬級仿真場景,大幅降低機器人訓練成本與風險。
廣泛應用:從機器人到建築設計
SpatialLM的應用場景極爲廣泛。在 具身智能領域,它支持機器人在複雜環境中實現導航、避障及任務執行,爲智能家居、服務機器人等提供核心技術支撐。在 建築設計與規劃中,模型能分析建築物點雲數據,自動識別牆體、門窗等結構,助力高效設計。此外,在 教育與培訓中,SpatialLM可用於開發3D建模教學軟件,幫助學生直觀理解空間關係。在 AR/VR及遊戲開發中,其虛擬場景生成能力爲沉浸式體驗提供了低成本解決方案。
SpatialLM的開源不僅展示了羣核科技在空間智能領域的技術積累,也推動了3D視覺技術的普及與創新。相比Meta的SceneScript等模型,SpatialLM以普通視頻爲輸入的通用性更強,且未來計劃迭代自然語言交互與場景交互功能,進一步增強模型的實用性。
項目:https://huggingface.co/manycore-research/SpatialLM-Llama-1B
