チップ大手のNVIDIAは、月曜日にカリフォルニア州サンディエゴで開催されたNeurIPS人工知能会議で、新しいインフラストラクチャーや人工知能モデルを発表しました。この取り組みは、現実世界を感知し、それに応じて行動できるロボットや自律走行車が含まれる「物理AI(Physical AI)」の基礎技術の構築を加速することを目的としています。
初の自律走行用推論視覚言語モデル登場
NVIDIAは、自律走行研究向けに設計されたオープンな推論視覚言語モデル(VLAM)であるAlpamayo-R1を発表しました。同社によると、これは自律走行を専門とする最初の視覚言語アクションモデルです。視覚言語モデルはテキストと画像を同時に処理でき、車両が周囲の環境を「見」、得られた情報をもとに判断を行うことが可能になります。
Alpamayo-R1はNVIDIAのCosmos-Reasonモデルに基づいており、この推論モデルは応答する前に「考える」ことと判断を行うことができます。NVIDIAは、L4レベルの完全自律走行を目指す企業にとって、Alpamayo-R1のような技術が重要だと述べています。また、このような推論モデルにより、自律走行車に「常識」を与えることができ、複雑な運転判断を人間のドライバーのようにより良く対応できるようになると期待しています。
この新モデルはGitHubとHugging Faceプラットフォームで公開されています。

Cosmos Cookbook:開発者のアプリケーション実装を加速
新しい視覚モデルに加え、NVIDIAはGitHub上で新たなステップバイステップガイド、推論リソース、およびトレーニング後のワークフローをまとめた「Cosmos Cookbook」を公開しました。このガイドはデータ整理、合成データ生成、モデル評価などに関する内容を網羅しており、開発者がCosmosモデルをよりよく使用・トレーニングし、それぞれの特定の用途に合わせて活用できるようにするためのものです。
次のAIの波に注目:物理AI
今回の発表は、NVIDIAが物理AI分野に全力を傾けているタイミングであり、それがその高性能AI GPUの新たな応用分野と考えられています。
