機器人技術正在迎來一次根本性變革。谷歌DeepMind剛剛發佈的Gemini Robotics項目展示了兩個協同工作的全新模型,首次實現了能夠在行動前進行"思考"的機器人系統。這一突破可能徹底改變當前機器人只能執行特定任務的侷限性。

生成式AI技術在文本、圖像、音頻和視頻創作領域已經變得司空見慣,而現在同樣的技術正在被應用於輸出機器人動作指令。DeepMind團隊認爲,生成式AI對機器人技術具有獨特重要性,因爲它能夠解鎖通用功能特性。

當前機器人面臨的核心問題是過度專業化。每個機器人都需要針對特定任務進行密集訓練,在執行其他任務時表現糟糕。谷歌DeepMind機器人部門負責人Carolina Parada指出:"今天的機器人高度定製化且部署困難,通常需要數月時間才能安裝一個只能執行單一任務的機器人單元。"

image.png

生成式系統的基礎特性讓AI驅動的機器人變得更加通用。它們可以面對全新的環境和工作空間,無需重新編程就能適應。DeepMind當前的機器人技術方法依賴於兩個模型的協作:一個負責思考,一個負責執行。

這兩個新模型分別命名爲Gemini Robotics1.5和Gemini Robotics-ER1.5。前者是視覺-語言-動作模型,能夠使用視覺和文本數據生成機器人動作指令。後者中的"ER"代表具身推理,這是一個視覺-語言模型,接收視覺和文本輸入後生成完成複雜任務所需的步驟。

Gemini Robotics-ER1.5是首個具備模擬推理能力的機器人AI系統,類似於現代文本聊天機器人的推理過程。DeepMind稱其爲"思考"能力,儘管在生成式AI領域這個術語可能並不完全準確。據DeepMind介紹,ER模型在學術和內部基準測試中都取得了頂級成績,表明它能夠對如何與物理空間交互做出準確決策。但它本身不執行任何動作,這就需要Gemini Robotics1.5的配合。

以分揀洗衣物爲例:當需要機器人將一堆衣物分成白色和彩色兩類時,Gemini Robotics-ER1.5會處理這個請求並分析物理環境的圖像。這個AI系統還能調用谷歌搜索等工具收集更多數據。然後ER模型生成自然語言指令,爲機器人提供完成任務所需遵循的具體步驟。

這種雙模型架構的創新之處在於將推理和執行分離。推理模型專注於理解任務需求和環境狀況,制定詳細的行動計劃;執行模型則負責將這些計劃轉化爲具體的機器人動作。這種分工協作的方式讓機器人系統既具備了複雜的思考能力,又保持了精確的執行效率。

從技術發展趨勢來看,這一突破可能標誌着機器人技術從專用化向通用化的重要轉折點。傳統機器人需要針對每個新任務進行大量訓練和調試,而具備生成式AI能力的機器人理論上可以通過自然語言指令快速適應新的工作場景。

當然,這項技術仍處於早期階段,實際部署中可能面臨各種挑戰。機器人在複雜真實環境中的表現、安全性保障、成本控制等問題都需要進一步解決。但DeepMind的這一嘗試無疑爲機器人技術的未來發展指明瞭一個極具前景的方向。

隨着AI技術的持續進步,我們可能即將見證機器人從單一任務執行者轉變爲真正的智能助手的歷史性時刻。