當地時間4月28日,英偉達正式推出其最新的開放式多模態大模型——Nemotron3Nano Omni。這款模型被定位爲“全能選手”,通過高度整合視頻、音頻、圖像和文本的深度推理能力,旨在爲開發者提供更快速、更智能的交互響應方案。
技術架構上的創新是該模型的一大亮點。Nemotron3Nano Omni採用了30B-A3B的“混合專家”(MoE)架構,將視覺與音頻編碼器直接集成在系統內部。這種一體化的設計打破了以往多模態處理需要依賴多個獨立感知模型的僵局,實現了從“碎片化上下文”向“統一上下文”的跨越。

性能數據表現尤爲搶眼。根據官方披露,該模型在複雜文檔處理、視頻理解及音頻感知等六大權威排行榜中均位列榜首。得益於其獨特的感知精度,該系統在保持極高交互性的同時,吞吐量達到了同類開放式全向模型的9倍。這意味着企業在部署AI智能體時,能夠以更低的成本實現更強的可擴展性,且不犧牲響應的即時性。
目前,已有多家先鋒科技公司接入該模型。H Company首席執行官Gautier Cloix在評價該模型時表示,得益於新架構,其AI代理現在可以實時解讀全高清屏幕錄像,這標誌着AI從簡單的任務執行者轉變爲能夠實時感知並理解數字環境的交互者。
作爲Nemotron3系列(包括Nano、Super和Ultra型號)的重要成員,該系列模型在過去一年中已創下超過5000萬次的下載記錄。英偉達表示,Nemotron3Nano Omni不僅可以獨立運行,還能與專有云模型或其他開源模型協同工作,爲複雜的代理工作流提供底座支持。此次發佈無疑爲企業級AI智能體的生產與部署樹立了全新的效率標杆。
