テクノロジーの世界で、Google DeepMindは新たな強力なシステムを発表しました。Gemini 1.5 Proというシステムをロボットに搭載したのです。これは単なるアップグレードではありません。このシステムによって、ロボットは記憶とナビゲーションの超能力を手に入れ、「天眼」を開いたようなものです。
約9000平方フィートの広さで、57種類の異なるタスクを実行し、成功率は90%に達します。例えば、「絵を描く場所」を見つけ出すというタスクでは、ロボットは指示を理解するだけでなく、大きなホワイトボードのある場所まで案内してくれます。人間の作業員よりも信頼できるかもしれません。
このシステムの優れた点は、マルチモーダルな長いコンテキストウィンドウを処理できることです。つまり、ロボットは重要な場所を記憶するだけでなく、人間の指示、ビデオによる案内を理解し、常識に基づいて推論することもできます。Googleの従業員の例では、「絵を描く場所」という指示を理解するだけでなく、大きなホワイトボードのある場所を探す必要があることも理解していました。
さらに、これらのロボットは以前のプロジェクトでオフィス環境に精通しており、「マルチモーダル指示ナビゲーションデモ」を通じて空間配置を学習しています。DeepMindのチームは、階層型視覚・言語・行動(VLA)技術を使用しており、ロボットは書面、図面による指示、そしてジェスチャーによる指示を理解できます。
このシステムの中核は、複雑な空間でロボットが自由に動き回ることができ、人間が常に指示する必要がない点です。環境を記憶し、指示を理解し、独自のやり方でタスクを完了できます。この能力により、ロボットは実用的な場面でより柔軟で有用になります。
結論として、Google DeepMindのこの技術は、ロボットを単に賢くするだけでなく、現実世界で人間により良く奉仕することを可能にします。これはロボットにとって新たな扉を開くものであり、私たちの生活に入り込み、仕事や探求の仲間となる可能性を秘めています。未来のロボットは、冷た機械ではなく、私たちの生活における知的なパートナーとなるでしょう。
