螞蟻靈波開源 LingBot-World：打造具身智能的“實時可交互”世界模型

繼空間感知與具身大模型之後，螞蟻靈波團隊正式開源了其交互式世界模型LingBot-World。該模型旨在爲具身智能、自動駕駛等領域提供一個高保真、邏輯一致且可實時操控的“數字演練場”。

LingBot-World 解決了具身智能訓練中“真機數據稀缺、成本高昂”的核心痛點。通過在虛擬環境中模擬物理規律，智能體可以進行低成本的“試錯”，並將習得的行爲因果關係遷移至現實世界。

該模型展現出多項突破性技術特性:

長時序一致性:實現了近10分鐘的連續穩定生成。即使鏡頭移開60秒後返回，場景中的物體結構與外觀依然保持一致，有效解決了視頻生成中的“細節塌陷”問題。
高保真實時交互:支持動作驅動生成（Action-conditioned generation），生成吞吐量約 16FPS，端到端交互延遲控制在 1秒以內。用戶可通過鍵盤、鼠標或文本指令實時改變環境，如調整天氣或視角。
Zero-shot 泛化能力:採用混合數據策略，結合網絡視頻與虛幻引擎（UE）合成管線進行訓練。用戶僅需輸入一張真實的城市照片或遊戲截圖，模型即可生成對應的可交互視頻流，無需針對特定場景額外訓練。

目前，螞蟻靈波團隊已將LingBot-World的模型權重及推理代碼全面開源。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

2025 年度“十大科技熱詞”揭曉：智能體、具身智能領銜前沿賽道