カリフォルニア州サンディエゴ発——NeurIPS2025会場で、NVIDIAは初のL4レベル自動運転向けの推論視覚言語アクションモデル「Alpamayo-R1」を発表し、同時にGitHubとHugging Faceに公開しました。新しいモデルは今年8月にリリースされたCosmos-Reasonシリーズに基づいており、カメラ、レーザーラジアル、テキストコマンドを一度に処理でき、内部的な推論を経て運転判断を出力します。公式には、このモデルが車両に「人間の常識」を注入したとされています。

Alpamayo-R1の特徴:
- 一貫性のあるアーキテクチャ:視覚+言語+アクションの3モダリティをエンドツーエンドで訓練し、モジュールごとの誤差の重ね合わせを防ぎます
- 推論プロセス:Cosmosの思考プロセスにより、「前車が急ブレーキをかけた」「歩行者が横断する」などのシナリオに対して複数ステップにわたる推論を行い、加速・ブレーキ・ハンドリング信号を出力します
- 即時利用可能:重み、推論スクリプト、評価ツールが「Cosmos Cookbook」としてまとめて配布され、開発者は必要に応じて微調整できます
NVIDIAの首席科学者ビル・ダリー氏は、「ロボットと自動運転は次のAIブームの中心となる。我々はすべてのロボットの脳になるべきだ」と語っています。新モデルの発表に伴い、会社はデータ合成、モデル評価、および後学習のフルワークフローのガイドラインも公開し、自動車メーカーおよびRobotaxiチームが制限されたエリアでL4機能を迅速に検証することを奨励しています。
アナリストは、オープンソースの推論モデルが自動車メーカーの自社開発のハードルを大幅に下げることになると見ていますが、機能安全認証を通過し、車載用のリアルタイム要件を満たすことができるかどうかは、Alpamayo-R1の商業化に先立って越えなければならない課題です。
