2025年4月8日,英偉達(NVIDIA)宣佈推出其最新大型語言模型(LLM)——Llama3.1Nemotron Ultra253B。這一模型基於Meta的Llama-3.1-405B-Instruct開發,通過創新的神經架構搜索(NAS)技術進行了深度優化,不僅在性能上超過了近期發佈的Llama4系列中的Behemoth和Maverick,還以開源形式在Hugging Face平臺上發佈,引發了AI社區的廣泛關注。

QQ_1744161895807.png

性能突破:碾壓Llama4Behemoth和Maverick

根據英偉達官方披露的信息以及社交媒體上的最新討論,Llama3.1Nemotron Ultra253B在多個關鍵基準測試中表現出色。這一模型擁有2530億個參數,相較於Llama4Behemoth高達2萬億的總參數量(2880億活躍參數)以及Maverick的170億活躍參數,Nemotron Ultra在效率和性能的平衡上實現了顯著突破。

儘管具體基準數據尚未完全公開,但Nemotron Ultra據稱在推理能力、指令遵循和通用任務處理上超越了Llama4系列的旗艦模型。這得益於英偉達通過NAS技術對模型架構的優化,顯著降低了內存佔用和推理延遲,同時保持了高精度。相比之下,Llama4Behemoth雖然參數量龐大,但在計算資源需求上更爲苛刻,而Nemotron Ultra能夠在單節點8x H100GPU上高效運行,展現了其在實用性上的優勢。

開源發佈:Hugging Face上的商業友好模型

Llama3.1Nemotron Ultra253B不僅性能強勁,其開源策略也備受讚譽。該模型已在Hugging Face平臺上提供開放權重,遵循NVIDIA Open Model License和Llama3.1社區許可協議,支持商業使用。

據稱,Nemotron Ultra253B不僅擊敗了Llama4Behemoth和Maverick,還與DeepSeek R1不相上下,且具備商業許可,這太火爆了!”這一舉措被認爲是英偉達推動AI民主化的重要一步,爲開發者、企業和研究人員提供了高性能模型的便捷訪問渠道。

此外,該模型支持高達128K的上下文長度,適用於高級推理、聊天交互、檢索增強生成(RAG)和工具調用等多種任務。英偉達特別強調,開發者可通過系統提示切換“推理模式”(Reasoning On/Off),靈活應對不同應用場景的需求。

值得注意的是,Llama4Behemoth尚未完全發佈(目前仍處於訓練階段),因此直接比較可能尚不全面。儘管如此,Nemotron Ultra憑藉其開源性質和對單GPU集羣的高效適配,已被視爲當前AI領域的一匹黑馬。

QQ_1744161906170.png

英偉達的戰略佈局

業內人士分析,Llama3.1Nemotron Ultra253B的發佈不僅是技術上的突破,也是英偉達在AI生態系統中的戰略佈局。通過優化現有開源模型並提升其性能,英偉達不僅展示了其在AI軟件開發上的實力,也進一步鞏固了其硬件(特別是H100GPU)在AI推理和訓練中的核心地位。這一模型的效率優勢意味着企業能夠在更低的成本下部署高性能AI解決方案,無疑將推動英偉達硬件的市場需求。

Llama3.1Nemotron Ultra253B的亮相標誌着英偉達在大型語言模型領域的又一次重大進展。其超越Llama4Behemoth和Maverick的性能表現,結合開源和商業友好的特性,使其成爲2025年AI領域的一大亮點。

項目入口:https://top.aibase.com/tool/llama-3-1-nemotron-ultra-253b