最近開催されたSIGGRAPH国際コンピュータグラフィックスおよびインタラクティブ技術会議において、NVIDIAはロボット開発者向けの新しい技術群を紹介しました。その中でも特に注目を集めたのは、オープンソースの物理AIモデル「Cosmos Reason」です。このモデルには70億のパラメータがあり、ロボットにより効率的な視覚的推論能力を提供することを目的としています。

image.png

NVIDIAは、OpenAIがCLIPモデルをリリースして以来、視覚言語モデルがコンピュータビジョン分野で顕著な進歩を遂げたと指摘しています。特に物の識別やパターン認識などのタスクにおいて、大きな成果を収めています。しかし、従来のモデルでは複雑な多段階のタスクに対処することが難しく、曖昧または新しい現実的な状況に対しては苦労することがあります。Cosmos Reasonは、優れた記憶力と理解力を備えており、ロボットが人間のように推論できるようにし、現実世界でのより合理的な行動決定を行うことができます。

実際にNVIDIAが展示した応用例では、この視覚的推論モデルを搭載したロボットアームが「パン+トースター」という組み合わせを識別し、次に適切なアクションとしてパンをトースターに入れることが導き出されました。このプロセスは「ロボットの計画と推論」と呼ばれ、Cosmos Reasonが複雑な指示を処理する際の効率性と柔軟性を示しています。

image.png

Cosmos Reasonはロボットの「推論脳」としてだけでなく、他のAI分野でも広く応用可能です。例えば、大規模かつ多様なトレーニングデータセットの自動処理や整理・ラベリングが可能になります。また、大量の動画データから重要な情報を抽出し、効果的に分析することもできます。現在、このモデルは商業化されており、NVIDIA内のロボットおよび自律走行チームがデータの整理とラベリングに使用しています。

注目すべきは、UberもCosmos Reasonを活用して自律走行のトレーニングデータのラベリングと説明の生成を行っていることです。また、Magna Internationalはこのモデルを使って完全自動の即時配送ソリューションを開発し、車両が新しい都市環境に迅速に適応できるようにしています。さらに、VAST DataやMilestone Systemsなどの企業も交通監視や視覚検出などの分野でこの技術を応用しています。

Cosmos Reasonに加え、NVIDIAはCosmosワールドモデルにCosmos Transfer-2を追加し、3Dシミュレーションシーンの合成データ生成を加速しています。また、Omniverseソフトウェア開発キットを更新し、新たな神経再構築ライブラリをリリースすることで、開発者のツール選択をさらに拡張しています。

ポイント:

1. 🤖 NVIDIAがリリースしたCosmos Reasonモデルにより、ロボットは効率的な視覚的推論と複雑な意思決定が可能になります。

2. 🚗 このモデルは、Uberの自律走行データのラベリングやMagna Internationalの配送ソリューションなど、多くの商業分野で応用されています。

3. 🛠️ NVIDIAは開発ツールを更新し、ロボット技術とAIの統合を促進しています。