在最近舉行的 SIGGRAPH 國際計算機圖形學和交互技術會議上,英偉達展示了一系列針對機器人開發者的新技術,其中最引人注目的是他們推出的開源物理 AI 模型 ——Cosmos Reason。該模型參數量達到70億,旨在爲機器人提供更高效的視覺推理能力。

image.png

英偉達指出,自從 OpenAI 推出 CLIP 模型以來,視覺語言模型在計算機視覺領域取得了顯著進展,尤其是在物體識別和模式識別等任務中。然而,傳統模型在面對複雜的多步驟任務時常常力不從心,尤其是在處理模糊或新穎的現實情境時。Cosmos Reason 通過其卓越的記憶和理解能力,使得機器人能夠像人類一樣進行推理,從而在現實世界中做出更加合理的行動決策。

在英偉達展示的實際應用場景中,運行該視覺推理模型的機器人手臂成功地識別出 “麪包 + 烤麪包機” 的組合,並推導出合理的下一步動作是將麪包放入烤麪包機進行烘烤。這一過程被稱爲 “機器人規劃與推理”,展示了 Cosmos Reason 在處理複雜指令時的高效性和靈活性。

image.png

除了作爲機器人 “推理大腦” 外,Cosmos Reason 還可以廣泛應用於其他 AI 領域。例如,它能夠自動化處理大規模、多樣化的訓練數據集,進行整理和標註。此外,它還可以從大量視頻數據中提取重要信息,並進行有效的分析。當前,該模型已經投入商業化運營,英偉達內部的機器人和自動駕駛團隊正在使用它來進行數據整理和標註工作。

值得一提的是,優步也在利用 Cosmos Reason 爲其自動駕駛訓練數據提供標註和生成說明。而麥格納國際則通過該模型開發全自動即時配送解決方案,旨在幫助車輛更快地適應新的城市環境。此外,VAST Data 和 Milestone Systems 等公司也在交通監控和視覺檢測等領域應用這一技術。

除了 Cosmos Reason,英偉達還在 Cosmos 世界模型中新增了 Cosmos Transfer-2,旨在加速3D 仿真場景的合成數據生成。同時,英偉達更新了 Omniverse 軟件開發工具包,並推出了新的神經重建庫,進一步擴展了開發者的工具選擇。

劃重點:

1. 🤖 英偉達推出的 Cosmos Reason 模型,使機器人能夠進行高效的視覺推理和複雜決策。

2. 🚗 該模型已在多個商業領域應用,包括優步的自動駕駛數據標註和麥格納國際的配送解決方案。

3. 🛠️ 英偉達還更新了開發工具,推動機器人技術與 AI 的結合。