芯片巨頭英偉達週一在加州聖地亞哥舉行的 NeurIPS 人工智能大會上宣佈了新的基礎設施和人工智能模型,此舉旨在加速構建物理人工智能(Physical AI)的基礎技術,該領域包括能夠感知現實世界並與之互動的機器人和自動駕駛汽車。
首個自動駕駛推理視覺語言模型亮相
英偉達發佈了 Alpamayo-R1,這是一款專用於自動駕駛研究的開放式推理視覺語言模型(VLAM)。該公司聲稱,這是首個專注於自動駕駛的視覺語言動作模型。視覺語言模型能夠同時處理文本和圖像,使車輛能夠“看到”周圍環境,並根據感知信息做出決策。
Alpamayo-R1基於英偉達的 Cosmos-Reason 模型,該推理模型能夠在做出響應之前進行“思考”和決策。英偉達表示,像 Alpamayo-R1這樣的技術對於旨在實現 L4級完全自動駕駛的公司至關重要,並希望這種推理模型能賦予自動駕駛汽車“常識”,使其能夠更好地處理複雜的駕駛決策,更像人類駕駛員。
這款新模型已在 GitHub 和 Hugging Face 平臺開放。

Cosmos Cookbook:加速開發者落地應用
除了新的視覺模型,英偉達還在 GitHub 上線了一套新的分步指南、推理資源和訓練後工作流程,統稱爲 Cosmos Cookbook。這套指南涵蓋了數據整理、合成數據生成和模型評估等方面,旨在幫助開發者更好地使用和訓練 Cosmos 模型,以滿足其特定的應用場景需求。
鎖定下一波AI浪潮:物理人工智能
此次發佈正值英偉達全力推進物理人工智能領域之際,將其視爲其先進 AI GPU 的新應用方向。
英偉達聯合創始人兼首席執行官黃仁勳曾多次強調,下一波人工智能浪潮將是物理人工智能。英偉達首席科學家比爾·戴利也表達了類似觀點,並着重強調了物理人工智能在機器人領域的應用。戴利此前表示:“我認爲最終機器人將在世界上扮演舉足輕重的角色,而我們希望最終能夠製造出所有機器人的大腦。要做到這一點,我們需要開始研發關鍵技術。”
