阿里巴巴旗下高德地圖正式推出自研世界模型“FantasyWorld”,憑藉海量真實導航數據優勢,這一模型迅速在國際權威基準WorldScore Leaderboard上奪得綜合得分第一,進一步擴展了阿里在AI基礎模型領域的佈局。FantasyWorld聚焦於高品質3D世界構建,正成爲具身智能和自動駕駛領域的新焦點。

 FantasyWorld的核心技術突破

FantasyWorld旨在爲具身智能與通用人工智能(AGI)提供高質量3D世界模型。其創新在於:在凍結的視頻基礎模型骨幹上,增設可訓練的幾何分支,實現“視頻潛變量”和“隱式3D場”的聯合建模,僅需一次前向計算即可完成。

image.png

這一設計顯著提升了生成視頻的視覺真實感,同時大幅改善多視角一致性和幾何保真度。相比近期其他幾何一致性方法,FantasyWorld在多視角協同、風格一致性以及極端視角(如180°旋轉)下的物體形狀與紋理保持上表現出色。模型生成的3D潛變量可直接解碼爲深度圖或點雲,支持下游任務無需額外優化。

 登頂WorldScore:國際認可的實力證明

WorldScore是由斯坦福大學李飛飛團隊主導的統一世界生成基準,涵蓋靜態/動態場景、可控性、一致性等多維度評估。目前,FantasyWorld在綜合得分以及關鍵指標(如靜態世界得分78.55、動態世界得分66.89)上位居榜首,超越多家國內外競爭模型。

相關論文已被ICLR2025、NeurIPS2025等頂會收錄,高德方面表示模型將於近期開源,進一步推動學術與產業合作。

 實際應用落地:飛行街景引領空間智能新體驗

FantasyWorld已率先應用於高德地圖的“飛行街景”功能。商家僅需上傳幾段手機視頻,即可免費生成高保真3D虛擬漫遊街景,幫助用戶提前“身臨其境”瞭解餐廳佈局、座位區等細節,同時助力線下商家提升流量。

這一功能被視爲“技術平權”的體現,降低了專業3D建模門檻。高德還內部成立了具身業務部,探索機器人、機器狗等方向,結合空間智能全面轉向物理AI。

 行業影響:世界模型時代加速到來

隨着自動駕駛轉向端到端視覺語言行動(VLA)方案,以及具身智能的迅猛發展,追求物理真實性和3D一致性的世界模型正變得至關重要。FantasyWorld的推出,不僅強化了阿里在多模態AI的版圖,還凸顯了中國企業在真實世界數據驅動下的空間智能優勢。

AIbase觀點:FantasyWorld標誌着世界模型從視頻生成向可交互3D模擬的躍進,將深刻影響AR/VR、機器人導航、數字孿生等領域的未來。高德憑藉億級用戶數據積累,或將在物理AI賽道佔據先機。AIbase將持續關注其開源進展與更多應用落地,爲讀者帶來深度解讀。