近日,星動紀元宣佈,已與清華大學叉院的 ISRLab 合作,開源了首個 AIGC(生成式人工智能內容)機器人大模型 ——VPP(視頻預測策略)。這一創新成果有望在機器人領域帶來革命性的進展。

QQ_1746605270503.png

VPP 模型通過將視頻擴散模型的泛化能力引入到通用機器人操作策略中,解決了以往機器人推理速度慢的問題。VPP 能夠實時預測未來動作,從而極大提升機器人的策略泛化能力。值得注意的是,這一模型已在國際機器學習大會(ICML2025)上獲得 Spotlight 認可,展現出其研究的前沿性和重要性。

實時預測與高效執行

VPP 的一大亮點在於其預測能力。傳統的機器人策略通常依賴於當前觀測來進行動作學習,而 VPP 則能夠提前 “預知” 未來的場景,從而在執行指令時顯得更加從容。通過該模型,機器人的執行速度能夠實現 “更快一步”,在僅需150毫秒的推理時間內,預測頻率達到6-10Hz,控制頻率更是超過50Hz,極大提升了動作執行的流暢性。

 跨本體學習的優勢

在以往的模型中,不同類型機器人的數據難以融合,導致學習效率低下。而 VPP 能夠直接利用多種形態機器人的視頻數據進行學習,降低了對高質量真實數據的依賴。此外,VPP 還可通過學習人類動作數據,進一步提升模型的泛化能力。

 基準測試表現優異

在最近的 Calvin ABC-D 基準測試中,VPP 模型以4.33的任務完成平均長度接近滿分5.0,展現出顯著的性能優勢。與之前的技術相比,VPP 提升幅度達41.5%。在真實世界的靈巧操作測試中,該模型在多任務學習和泛化能力上同樣表現不俗,能完成超過100種複雜操作任務,顯示出其在實際應用中的強大潛力。

VPP 模型的可解釋性也是其一大亮點。開發者能夠通過模型預測的視頻提前識別潛在的失敗場景,並進行鍼對性的調試與優化,相較於傳統的端到端模型,這一優勢使得開發過程更加高效。

項目地址:https://video-prediction-policy.github.io