深度學習的快速發展離不開規模化的數據集、模型和計算量。在自然語言處理和計算機視覺領域,研究人員已經發現了模型性能與數據規模之間存在冪律關係。然而,機器人領域,特別是機器人操控領域,尚未建立起類似的規模化規律。
清華大學的研究團隊最近發表了一篇論文,探討了機器人模仿學習中的數據規模化規律,並提出了一種高效的數據收集策略,僅用一個下午的時間就收集了足夠的數據,使得策略能夠在新環境和新物體上實現約90% 的成功率。
研究人員將泛化能力分爲環境泛化和物體泛化兩個維度,並使用手持式夾爪在各種環境和不同物體上收集人類演示數據,並使用擴散策略對這些數據進行建模。研究人員首先關注了倒水和鼠標放置兩個任務,通過分析策略在新環境或新物體上的性能如何隨訓練環境或物體數量的增加而變化,總結出數據規模化規律。
研究結果表明:
策略對新物體、新環境或兩者的泛化能力,分別與訓練物體、訓練環境或訓練環境-物體對的數量呈冪律關係。
增加環境和物體的多樣性比增加每個環境或物體的演示數量更有效。
在儘可能多的環境中收集數據(例如32個環境),每個環境中有一個獨特的操作對象和50個演示,就可以訓練出一個泛化能力強的策略(成功率90%),使其能夠在新環境和新物體上運行。
基於這些數據規模化規律,研究人員提出了一種高效的數據收集策略。他們建議在儘可能多的不同環境中收集數據,每個環境中只使用一個獨特的物體。 當環境-物體對的總數達到32個時,通常足以訓練出一個能夠在新環境中操作並與以前未見過的物體交互的策略。對於每個環境-物體對,建議收集50個演示。
爲了驗證數據收集策略的普遍適用性,研究人員將其應用於兩個新任務:摺疊毛巾和拔掉充電器。結果表明,該策略同樣能夠在這兩個新任務上訓練出泛化能力強的策略。
該研究表明,只需投入相對適度的時間和資源,就可以學習到能夠零樣本部署到任何環境和物體的單任務策略。 爲了進一步支持研究人員在這方面的努力,清華團隊發佈了他們的代碼、數據和模型,希望能夠啓發該領域的進一步研究,最終實現能夠解決複雜、開放世界問題的通用機器人。
論文地址:https://arxiv.org/pdf/2410.18647