有“AI教母”之稱的斯坦福大學教授李飛飛及其團隊近日發佈了一項關於多模態大模型“空間智能”的研究,揭示這些模型在記憶和回憶空間方面已經具備初步能力,並展現出形成局部世界模型的潛力。
研究團隊開發了用於評估視覺空間智能能力的工具——VSI-Bench,其中包含超過5000個基於288個真實視頻的高質量問答對。測試視頻涵蓋居住空間、專業場所及工業場景,涉及多個地理區域。

研究結果顯示,儘管多模態模型的總體表現尚低於人類,但在某些任務上已達到或接近人類水平。例如,Gemini-1.5Pro在絕對距離和房間大小估計等任務中表現突出,部分開源模型如LLaVA系列亦取得了競爭性結果。
研究還指出,使用認知地圖輔助空間推理可顯著提升模型在空間任務上的表現,其準確率提升達10個百分點。這表明明確生成認知地圖有助於突破模型在空間理解上的瓶頸。
李飛飛表示,空間智能是AI理解物理世界的關鍵能力,對實現通用人工智能(AGI)至關重要。她認爲,空間智能將成爲AI領域的下一個前沿技術方向,甚至有望在2025年取得重要突破。
今年9月,李飛飛創辦的公司World Labs宣佈正式啓動,專注於開發具備空間智能的AI模型。這家公司已獲得包括英偉達、a16z、Adobe等知名機構的投資,目前估值超過10億美元。
這一研究及其應用,標誌着AI技術從二維信息處理向三維空間感知的關鍵進步,未來有望廣泛應用於導航、機器人交互、增強現實等領域,爲人工智能的進一步發展開闢全新道路。
