近日,清華大學叉院的 ISRLab 與北京星動紀元科技有限公司攜手推出了首個 AIGC(人工智能生成內容)機器人大模型 ——VPP(視頻預測策略)。這一創新成果在2025年國際機器學習大會(ICML2025)上榮獲 Spotlight 論文獎,顯示出其在全球 AI 研究領域的前沿地位。

QQ20250507-171754.png

AIGC 技術近年來迅速崛起,從生成式文本模型到視頻生成技術,其應用範圍不斷擴大。而 VPP 的誕生標誌着這一技術的應用邁向了具身智能機器人領域。VPP 的獨特之處在於其利用了海量互聯網視頻數據進行訓練,使得機器人能夠在接收到簡單指令後,實時預測未來場景並執行相應動作。例如,用戶只需說出 “給我盛一碗熱騰騰的雞湯”,VPP 模型便能讓機器人完成這一任務。

根據 ICML2025的統計,今年的 Spotlight 論文評選競爭激烈,投稿總數超過12000篇,而獲獎論文僅佔2.6%。VPP 通過將視頻擴散模型的泛化能力引入機器人操作策略,創新性地解決了傳統推理速度的瓶頸,實現了機器人實時預測和動作執行的能力,顯著提升了策略的泛化性。

QQ20250507-171819.png

VPP 的學習框架分爲兩個階段,首先利用視頻擴散模型學習預測性視覺表徵,然後通過 Video Former 和 DiT 擴散策略進行動作學習。這種方法使得機器人不僅能快速響應用戶指令,還能在不同的人形機器人平臺之間自如切換,極大降低了對高質量實機數據的依賴,推動了機器人技術的商業化進程。

在基準測試中,VPP 的表現也令人矚目。在 Calvin ABC-D 基準測試中,其任務完成平均長度達到4.33,成功率顯著高於現有技術,展現出其卓越的性能。此外,VPP 的多任務學習能力也在真實環境中得到了驗證,能夠完成100多種複雜的靈巧操作任務。