你是否注意到,那些讓我們驚歎不已的AI雖然能寫詩作畫,卻對我們生活的三維空間理解有限?當今大多數AI世界模型仍在二維平面中"思考",它們能識別照片中的貓咪,卻難以理解物體在空間中的位置、形狀與深度。這種"二維詛咒"嚴重限制了AI,特別是機器人在現實世界中的應用能力。

來自UMass Amherst、HKUST和哈佛的研究團隊帶來了突破性解決方案——TesserAct,一個真正能夠理解四維世界的AI模型。這個名稱讓人聯想到《星際穿越》中的高維空間概念,而它的功能同樣具有科幻色彩:賦予AI理解三維空間加時間維度的能力。

image.png

傳統2D模型在機器人控制應用中面臨諸多痛點。想象一個僅能理解平面圖像的機器人嘗試從冰箱取出牛奶時的窘境:它無法準確判斷距離,不知如何調整抓取姿態,更無法對物體運動做出合理預測。這些問題對於需要與物理世界交互的具身智能而言是致命的。

TesserAct的創新在於它沒有試圖直接預測複雜的4D動態場景,而是選擇了一種更高效的表示方法:預測未來的RGB-DN視頻流。這一巧妙組合包含了常規彩色圖像(RGB)、深度圖(D)和法線圖(N)。深度圖告訴AI畫面中每個點的距離,就像給它戴上3D眼鏡;法線圖則提供表面朝向信息,使AI能"觸摸"物體表面的形狀和紋理。這三種信息構成的視頻流既包含了物體外觀,又含有關鍵的3D幾何信息,還捕捉了時間變化。

獲取這類4D數據是一大挑戰。研究團隊採用"虛實結合"策略:在機器人仿真環境中生成大量帶精確深度信息的數據,同時使用先進算法爲真實機器人視頻添加深度和法線標註,還補充了人類與物體交互的數據。這一創新數據集成爲訓練TesserAct的基礎。

image.png

在模型架構上,團隊沒有從零開始,而是聰明地利用了預訓練的CogVideoX文本到視頻生成模型。他們對模型進行了巧妙改造:分別對RGB、深度和法線視頻進行編碼,設計了專門的"投影儀"處理這三種模態信息,同時擴展了輸出端以預測完整的RGB-DN數據。這種方法最大限度地利用了預訓練模型的知識,僅需在相對較小的4D數據集上微調。

TesserAct還創新性地開發了優化算法,將生成的"三視圖"轉化爲連貫動態的4D場景。它利用法線圖優化深度圖,使用光流算法區分動態與靜態區域,並引入時空連續性約束確保場景真實感。這套精巧的優化流程將預測出的RGB-DN視頻流"縫合"成時空高度一致的4D表示。

image.png

在各項測試中,TesserAct表現出色。它在4D場景生成質量、新視角合成和跨平臺泛化能力上均優於現有方法。最關鍵的是,基於TesserAct訓練的機器人在各種操作任務中,成功率遠超僅使用2D圖像的方法,特別是在需要精確空間理解的任務上優勢明顯。

TesserAct的出現標誌着AI世界模型研究的重要"升維"。它讓我們看到了讓AI真正理解三維動態世界的可能性。基於這種4D世界模型,未來機器人有望在複雜環境中靈活操作,通過"想象"未來場景做出智能決策,並從仿真訓練無縫遷移到現實應用。

雖然研究仍有侷限,但TesserAct無疑開啓了通往更強大具身AI的大門。下次當你看到機器人笨拙地抓不起東西時,也許可以想:它缺的正是這樣一個能理解四維世界的大腦!

論文地址:https://arxiv.org/pdf/2504.20995