麻省理工學院(MIT)本週展示了一種全新的機器人訓練模型,該模型放棄了以往專注於特定數據集的訓練方法,轉而採用類似大型語言模型(LLMs)訓練時使用的海量信息。
研究人員指出,模仿學習——即代理通過模仿執行任務的個體來學習——在遇到小的挑戰時可能會失敗。這些挑戰可能包括不同的光照條件、不同的環境設置或新的障礙物。在這些情況下,機器人沒有足夠的數據來適應這些變化。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
團隊借鑑了像GPT-4這樣的模型,採用了一種粗暴的數據驅動問題解決方式。
“在語言領域,數據就是句子,”該論文的主要作者Lirui Wang說。“在機器人領域,鑑於數據的多樣性,如果你想以類似的方式預訓練,我們需要不同的架構。”
團隊引入了一種新的架構,稱爲異構預訓練變換器(HPT),它整合了來自不同傳感器和不同環境的信息。然後使用變換器將數據整合到訓練模型中。變換器越大,輸出結果越好。
用戶隨後輸入機器人的設計、配置以及他們想要完成的任務。
“我們的夢想是擁有一個通用的機器人大腦,你可以下載並用於你的機器人,而無需任何訓練,”卡內基梅隆大學副教授David Held在談到這項研究時說。“雖然我們纔剛剛開始,但我們將繼續努力,希望規模的擴大能像大型語言模型一樣,爲機器人策略帶來突破。”
這項研究部分由豐田研究所資助。去年在TechCrunch Disrupt上,TRI展示了一種一夜之間訓練機器人的方法。最近,它達成了一個分水嶺的合作伙伴關係,將其機器人學習研究與波士頓動力的硬件結合起來。
