谷歌正在通過 Gemini AI 訓練其機器人,以提高導航和任務完成的能力。
DeepMind 機器人團隊在一篇新的研究論文中詳細解釋瞭如何利用 Gemini1.5Pro 的長上下文窗口來讓用戶更輕鬆地用自然語言指令與 RT-2機器人交互。通過拍攝指定區域的視頻遊覽,研究人員使用 Gemini1.5Pro 讓機器人 “觀看” 視頻以瞭解環境,從而使機器人能夠根據觀察到的情況執行命令,比如引導用戶到電源插座充電等。
DeepMind 表示,搭載 Gemini 的機器人在9000多平方英尺的操作區域內成功執行了50多個用戶指令,成功率達到90%。
此外,研究人員還發現 Gemini1.5Pro 讓機器人能夠計劃如何完成指令,不僅限於導航。例如,當一個桌子上放着很多可樂罐的用戶詢問機器人是否有他們最喜歡的飲料時,Gemini 讓機器人知道應該前往冰箱檢查,然後向用戶報告結果。DeepMind 表示將進一步調查這些結果。
根據研究論文顯示,雖然谷歌提供的視頻演示令人印象深刻,但根據論文所示,機器人處理這些指令需要10-30秒的時間。儘管我們可能需要一些時間才能與更先進的環境測繪機器人共享家園,但至少這些機器人可能能夠幫我們找到遺失的鑰匙或錢包。
劃重點:
🤖 Gemini AI 訓練機器人,提高導航和任務完成能力
🧠 Gemini1.5Pro 讓機器人能夠執行自然語言指令
🔍 研究發現 Gemini 讓機器人能夠計劃執行超出導航範圍的指令