谷歌正通過Gemini AI訓練機器人，提高導航和任務完成能力

谷歌正在通過 Gemini AI 訓練其機器人，以提高導航和任務完成的能力。

DeepMind 機器人團隊在一篇新的研究論文中詳細解釋瞭如何利用 Gemini1.5Pro 的長上下文窗口來讓用戶更輕鬆地用自然語言指令與 RT-2機器人交互。通過拍攝指定區域的視頻遊覽，研究人員使用 Gemini1.5Pro 讓機器人 “觀看” 視頻以瞭解環境，從而使機器人能夠根據觀察到的情況執行命令，比如引導用戶到電源插座充電等。

DeepMind 表示，搭載 Gemini 的機器人在9000多平方英尺的操作區域內成功執行了50多個用戶指令，成功率達到90%。

此外，研究人員還發現 Gemini1.5Pro 讓機器人能夠計劃如何完成指令，不僅限於導航。例如，當一個桌子上放着很多可樂罐的用戶詢問機器人是否有他們最喜歡的飲料時，Gemini 讓機器人知道應該前往冰箱檢查，然後向用戶報告結果。DeepMind 表示將進一步調查這些結果。

根據研究論文顯示，雖然谷歌提供的視頻演示令人印象深刻，但根據論文所示，機器人處理這些指令需要10-30秒的時間。儘管我們可能需要一些時間才能與更先進的環境測繪機器人共享家園，但至少這些機器人可能能夠幫我們找到遺失的鑰匙或錢包。

劃重點:
🤖 Gemini AI 訓練機器人，提高導航和任務完成能力
🧠 Gemini1.5Pro 讓機器人能夠執行自然語言指令
🔍 研究發現 Gemini 讓機器人能夠計劃執行超出導航範圍的指令

Heygen推對口型工具上傳照片+音頻即可說話、唱歌

AI照片“復活術”Heygen推出照片對口型工具，用戶上傳照片與音頻後，照片中人物可對應音頻內容進行說話、唱歌、朗讀，支持長達20秒音頻生成視頻，具備識別並同步主要聲音的特點。然而，目前該服務對中國區用戶有限制，導致用戶體驗受限。Heygen在當地受到關注，今年6月在一輪融資中以5億美元估值籌集了6000萬美元，獲得Benchmark等知名機構投資，並接入新董事會成員。至今已籌集7400萬美元，成爲了利用生成式AI成本更低、操作更簡捷進行影片製作領域的領先企業。體驗該工具的地址已公佈。

大語言模型推理能力被高估了在不熟悉場景中有很大的弱點

近期,麻省理工學院研究團隊對大型語言模型(LLMs)在不同任務下的表現進行了深入探討。研究發現,LLMs在熟悉任務上表現良好,但卻在面對非典型或未知情境時顯現出推理能力的嚴重侷限。通過比較“默認任務”與“反事實場景”,以及調整任務設計以測試模型反應,結果表明,儘管模型在十進制算術運算相當出色,但在非十進制環境以及音樂、空間推理和國際象棋等其他任務中表現出完全不同的表現。模型的不穩定表現和對訓練數據的直接記憶依賴,揭示了其在面對變動環境中較爲有限的邏輯應用能力。研究主要作者指出,LLMs更加擅長於在熟悉場景下利用已知信息,而非靈活運用邏輯推理處理環境變化。這一發現對未來模型設計具有重要意義,尤其是在適應性和多任務處理能力提升方面,並指出了研究領域的新方向,力圖構建更具普適性和魯棒性的AI模型原型,應對真實世界複雜多變的挑戰。當前研究的侷限性在於對候選模型評估的維度和環境的限制,未來需進一步擴大評估範圍,以全面揭示模型在真實世界應用中的潛在限制。

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型

蘿蔔快跑發佈第六代無人車，集成全球首個人工智能大模型ApolloADFM，支持L4級自動駕駛。百度宣稱該系統安全性超過人類駕駛員10倍，媲美國產大飛機，保險保障乘客安全。據數據，相比人類司機，其出險率降低約9倍。兩年運行超過1億公里，無重大事故。通過應對武漢複雜交通，實現城市全域全時空無人服務，惠及近50%武漢市民。

谷歌正通過Gemini AI訓練機器人，提高導航和任務完成能力

相關推薦

Heygen推對口型工具上傳照片+音頻即可說話、唱歌

三星 Galaxy AI 推出“數學輔導”新模式告訴孩子解題技巧

大語言模型推理能力被高估了在不熟悉場景中有很大的弱點

微軟突破性更新：Edge瀏覽器實現SVG格式無縫複製粘貼

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型

谷歌正通過Gemini AI訓練機器人，提高導航和任務完成能力

相關推薦

Heygen推對口型工具 上傳照片+音頻即可說話、唱歌

三星 Galaxy AI 推出“數學輔導”新模式 告訴孩子解題技巧

​大語言模型推理能力被高估了 在不熟悉場景中有很大的弱點

微軟突破性更新：Edge瀏覽器實現SVG格式無縫複製粘貼

百度稱蘿蔔快跑安全水平接近C919飛機 已接入ApolloADFM大模型

Heygen推對口型工具上傳照片+音頻即可說話、唱歌

三星 Galaxy AI 推出“數學輔導”新模式告訴孩子解題技巧

大語言模型推理能力被高估了在不熟悉場景中有很大的弱點

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型