加州圣迭戈电——在NeurIPS2025现场,英伟达发布首款面向L4级自动驾驶的推理视觉语言动作模型Alpamayo-R1,并同步上线GitHub与Hugging Face。新模型基于今年8月推出的Cosmos-Reason系列,可一次性处理摄像头、激光雷达与文本指令,先内部推理再输出驾驶决策,官方称其给车辆注入“人类常识”。

Alpamayo-R1亮点一览:
- 统一架构:视觉+语言+动作三模态端到端训练,避免分模块误差叠加
- 推理链路:Cosmos思维链让模型对“前车急刹、行人横穿”等场景进行多步推演,再输出加速/制动/转向信号
- 即开即用:权重、推理脚本与评估工具一并打包进“Cosmos Cookbook”,开发者可按需微调
英伟达首席科学家Bill Dally表示,机器人与自动驾驶将是下一波AI浪潮的核心,“我们要做所有机器人的大脑”。伴随新模型发布,公司同时推出数据合成、模型评测与后训练全流程指南,鼓励车企与Robotaxi团队在限定区域快速验证L4功能。
分析师认为,开源推理模型可显著降低车厂自研门槛,但能否通过功能安全认证、满足车规级实时要求,仍是Alpamayo-R1商业化前必须跨过的门槛。
