繼空間感知與具身大模型之後,螞蟻靈波團隊正式開源了其交互式世界模型LingBot-World。該模型旨在爲具身智能、自動駕駛等領域提供一個高保真、邏輯一致且可實時操控的“數字演練場”。

image.png

LingBot-World 解決了具身智能訓練中“真機數據稀缺、成本高昂”的核心痛點。通過在虛擬環境中模擬物理規律,智能體可以進行低成本的“試錯”,並將習得的行爲因果關係遷移至現實世界。

該模型展現出多項突破性技術特性:

  • 長時序一致性:實現了近10分鐘的連續穩定生成。即使鏡頭移開60秒後返回,場景中的物體結構與外觀依然保持一致,有效解決了視頻生成中的“細節塌陷”問題。

  • 高保真實時交互:支持動作驅動生成(Action-conditioned generation),生成吞吐量約 16FPS,端到端交互延遲控制在 1秒以內。用戶可通過鍵盤、鼠標或文本指令實時改變環境,如調整天氣或視角。

  • Zero-shot 泛化能力:採用混合數據策略,結合網絡視頻與虛幻引擎(UE)合成管線進行訓練。用戶僅需輸入一張真實的城市照片或遊戲截圖,模型即可生成對應的可交互視頻流,無需針對特定場景額外訓練。

目前,螞蟻靈波團隊已將LingBot-World的模型權重及推理代碼全面開源。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

劃重點:

  • 🌍 數字演練場:LingBot-World能夠模擬真實的物理因果關係,爲 AI 機器人提供低成本試錯空間。

  • ⏱️ 超長記憶力:支持長達10分鐘的邏輯一致性生成,告別長視頻常見的“物體變形”現象。

  • 🎮 實時操控感:具備16FPS 的生成速率,實現了毫秒級的動作響應與環境即時反饋。

  • 🖼️ 極簡部署:具備 Zero-shot 能力,單張照片即可“幻化”爲可交互的3D 模擬世界。