近日,英偉達正式推出了其最新開源模型系列 ——Llama-Nemotron,該系列模型不僅在推能力上超越了 DeepSeek-R1,更是在內存效率和吞吐量上實現了顯著提升。根據最新發佈的技術報告,Llama-Nemotron 的訓練過程與衆不同,採用了合成數據監督微調與強化學習的方法,以全方位提升模型的推理能力。
Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。這些模型的性能在業界引發了廣泛關注,尤其是 LN-Ultra,它在推理任務中表現優異,能夠在單個8xH100節點上高效運行,同時支持最多128K 的上下文長度,這在大語言模型中可謂是獨一無二。
值得一提的是,英偉達在開源界首次推出了 “推理開關” 功能,用戶只需通過系統提示詞 “detailed thinking on/off” 即可輕鬆切換不同的推理模式。這一設計使得模型能夠在日常對話與複雜的多步驟推理之間自如轉換,極大地滿足了不同用戶的需求。
Llama-Nemotron 模型的構建分爲五個階段,首先通過神經架構搜索(NAS)優化推理效率,接着進行知識蒸餾與預訓練,以恢復模型性能。隨後,進行了有監督微調(SFT),結合標準指令數據與強大教師模型的推理過程,提升模型的多步驟推理能力。特別是在複雜的數學和 STEM 數據集上進行強化學習訓練,使 LN-Ultra 在科學推理方面脫穎而出。
在模型架構方面,Llama-Nemotron 引入了新穎的 Puzzle 框架,能夠根據硬件限制轉化大語言模型爲高效版本,提升計算性能。這一系列優化措施爲 LN-Ultra 的推理能力奠定了堅實基礎。
英偉達的 Llama-Nemotron 系列模型在推理效率、內存管理和用戶交互方面的創新,標誌着開源人工智能模型領域的一次重大突破。
論文地址:https://arxiv.org/pdf/2505.00949