日本東京大學的研究人員與 Alternative Machine 公司的合作研究取得了新突破,開發出一款能夠直接將自然語言命令映射到機器人行動的人形機器人系統 Alter3。它的後臺模型採用了 GPT-4技術,可完成一系列複雜任務,例如自拍或者扮演幽靈等。

image.png

這是越來越多基於基礎模型與機器人系統相結合的研究成果之一。雖然這些系統還未達到可擴展的商業解決方案,但近年來它們推動了機器人研究的發展並展現出巨大潛力。

Alter3採用 GPT-4技術作爲後臺模型,接收描述動作或機器人需做出反應的情景的自然語言指令。首先,模型使用 "代理框架" 規劃機器人完成目標所需的一系列行動步驟。其次,通過編碼代理,生成機器人執行每個步驟所需的命令。由於 GPT-4沒有接受 Alter3編程命令的訓練,因此研究人員使用其上下文學習能力,將其行爲適應機器人的 API。

image.png

因此,prompt 包含命令列表和一組說明如何使用每個命令的示例。然後,模型將每個步驟映射到一個或多個 API 命令,以發送給機器人執行。

研究人員添加了功能,使得人類可以提供反饋,例如 “將手臂擡高一點”。這些指令會發送給另一個 GPT-4代理,對代碼進行推理、進行必要的更正並將動作序列返回給機器人。改進後的行動配方和代碼被存儲在數據庫中供將來使用。

image.png

研究人員在 Alter3上進行了多項測試,包括日常動作,例如自拍和喝茶,以及模仿動作,例如扮演幽靈或蛇。他們還測試了模型應對需要精心規劃行動的情況的能力。GPT-4對人類行爲和動作的廣泛瞭解,使得可以爲 Alter3等人形機器人創建更逼真的行爲計劃。研究人員的實驗還表明,他們能夠在機器人中模仿羞恥和喜悅等情感。

劃重點:

- 💡 Alter3是使用 GPT-4技術進行推理的最新人形機器人,能夠將自然語言指令直接映射到機器人的行動。

- 💡 研究人員利用 GPT-4技術的上下文學習能力,將其行爲適應機器人的 API,從而使機器人執行所需的一系列行動步驟。

- 💡 增加人類反饋和記憶可以提高 Alter3的性能,研究人員的實驗還表明,他們能夠在機器人中模仿羞恥和喜悅等情感。