繼空間感知與具身大模型之後,螞蟻靈波團隊正式開源了其交互式世界模型

LingBot-World 解決了具身智能訓練中“真機數據稀缺、成本高昂”的核心痛點。通過在虛擬環境中模擬物理規律,智能體可以進行低成本的“試錯”,並將習得的行爲因果關係遷移至現實世界。
該模型展現出多項突破性技術特性:
長時序一致性:實現了近10分鐘的連續穩定生成。即使鏡頭移開60秒後返回,場景中的物體結構與外觀依然保持一致,有效解決了視頻生成中的“細節塌陷”問題。
高保真實時交互:支持動作驅動生成(Action-conditioned generation),生成吞吐量約 16FPS,端到端交互延遲控制在 1秒以內。用戶可通過鍵盤、鼠標或文本指令實時改變環境,如調整天氣或視角。
Zero-shot 泛化能力:採用混合數據策略,結合網絡視頻與虛幻引擎(UE)合成管線進行訓練。用戶僅需輸入一張真實的城市照片或遊戲截圖,模型即可生成對應的可交互視頻流,無需針對特定場景額外訓練。
目前,螞蟻靈波團隊已將
Website:
https://technology.robbyant.com/lingbot-world
Model:
https://www.modelscope.cn/collections/Robbyant/LingBot-world
https://huggingface.co/collections/robbyant/lingbot-world
Code:
https://github.com/Robbyant/lingbot-world
劃重點:
🌍 數字演練場:
能夠模擬真實的物理因果關係,爲 AI 機器人提供低成本試錯空間。LingBot-World ⏱️ 超長記憶力:支持長達10分鐘的邏輯一致性生成,告別長視頻常見的“物體變形”現象。
🎮 實時操控感:具備16FPS 的生成速率,實現了毫秒級的動作響應與環境即時反饋。
🖼️ 極簡部署:具備 Zero-shot 能力,單張照片即可“幻化”爲可交互的3D 模擬世界。
