ロボット技術は根本的な変革の時代を迎えています。グーグルDeepMindが最近公開したGemini Roboticsプロジェクトでは、2つの新しいモデルが協力して動作し、行動前に「考える」ことができるロボットシステムを初めて実現しました。この突破は、現在のロボットが特定のタスクに限定されているという制約を根本的に変えうるかもしれません。

生成型AI技術はテキスト、画像、音声、動画の創作分野で一般的になりつつありますが、今や同じ技術がロボットの動作指示の出力に応用されています。DeepMindチームは、生成型AIがロボット技術において特異な重要性を持つと考えており、汎用的な機能特性を解放できるからです。

現在のロボットが直面している核心的な問題は過度な専門化です。各ロボットは特定のタスクに集中してトレーニングが必要であり、他のタスクではうまく機能しません。グーグルDeepMindのロボティクス部門長であるCarolina Parada氏は、「今日のロボットは高度にカスタマイズされており、通常は単一のタスクしか行えないロボットユニットを設置するのに数か月かかる」と述べました。

image.png

生成型システムの基本的な特徴により、AI駆動のロボットはより汎用的になります。新たな環境や作業空間に直面しても、再プログラミングすることなく適応できます。DeepMindの現在のロボット技術アプローチは、2つのモデルの協働に依存しています: 一つは思考を担当し、もう一つは実行を担当します。

これらの2つの新モデルはそれぞれGemini Robotics1.5とGemini Robotics-ER1.5と命名されています。前者は視覚・言語・動作モデルであり、視覚とテキストデータを使用してロボットの動作指示を生成します。後者の「ER」はエージェントリゾン(具身推理)を意味し、視覚とテキスト入力を受けて複雑なタスクに必要なステップを生成する視覚・言語モデルです。

Gemini Robotics-ER1.5は、シミュレーション推論能力を持つ最初のロボットAIシステムであり、現代のテキストチャットボットの推論プロセスに似ています。DeepMindはこれを「考える」能力と呼びますが、生成型AIの分野ではこの用語は完全には正確ではないかもしれません。DeepMindによると、ERモデルは学術的および内部のベンチマークテストでトップクラスの成績を収めているため、物理空間との相互作用の仕方について正確な決定ができることが示されています。しかし、ERモデル自体は動作を行わず、そのためにはGemini Robotics1.5との協調が必要です。

たとえば、洗濯物を白と色物に分ける場合を考えます。Gemini Robotics-ER1.5はその要求を受け取り、物理環境の画像を分析します。このAIシステムはGoogle検索などのツールを呼び出してさらなるデータを収集することもできます。その後、ERモデルは自然言語の指示を生成し、タスクを遂行するために必要な具体的なステップをロボットに提供します。

この二層モデルアーキテクチャの革新点は、推論と実行を分離することにあります。推論モデルはタスクの要件と環境状況を理解し、詳細な計画を立てることに専念します。実行モデルはそれらの計画を具体的なロボットの動作に変換します。この分業協働の方法により、ロボットシステムは複雑な思考能力を持ちながらも、正確な実行効率を維持することができます。

技術の発展傾向から見ると、この突破はロボット技術が専用化から汎用化への重要な転換点を示す可能性があります。従来のロボットは、新しいタスクごとに大量のトレーニングと調整が必要でしたが、生成型AIを備えたロボットは理論的には自然言語の指示によって迅速に新しい作業環境に適応できるはずです。

もちろん、この技術はまだ初期段階であり、実際の導入ではさまざまな課題が生じる可能性があります。複雑な現実環境でのロボットの性能、安全性の確保、コスト管理などの問題はさらに解決する必要があります。しかし、DeepMindのこの試みは、ロボット技術の将来にとって非常に有望な方向を示していると言えます。

AI技術の継続的な進歩とともに、私たちはロボットが単一のタスクを遂行する存在から、真の知的補助者へと変貌する歴史的な瞬間を目撃するかもしれないのです。