小型模型正在掀起一場風暴,而英偉達也不甘落後。在麻省理工學院和谷歌相繼推出能在智能手錶和智能手機上運行的小型 AI 模型後,英偉達發佈了其最新的小型語言模型(SLM)——Nemotron-Nano-9B-V2。該模型在多個基準測試中表現出色,並在特定測試中達到了同類產品的最高水平。
專爲效率和推理而生
Nemotron-Nano-9B-V2的參數量爲90億,雖然比一些數百萬參數的微型模型要大,但它比之前的120億參數版本顯著減小,並專門針對單個英偉達 A10GPU 進行了優化。英偉達 AI 模型後訓練總監 Oleksii Kuchiaev 解釋說,這種調整是爲了適配 A10這款熱門的部署 GPU。此外,Nemotron-Nano-9B-V2是一款混合模型,能處理更大的批次,速度比同等規模的 Transformer 模型快6倍。
該模型支持多達九種語言,包括中、英、德、法、日、韓等,並擅長處理指令跟蹤和代碼生成任務。其預訓練數據集和模型本身都已在 Hugging Face 和英偉達的模型目錄中提供。
融合 Transformer 與 Mamba 架構
Nemotron-Nano-9B-V2基於 Nemotron-H 系列,該系列融合了 Mamba 和 Transformer 架構。傳統的 Transformer 模型雖然強大,但在處理長序列時會消耗大量內存和計算資源。而 Mamba 架構則引入了選擇性狀態空間模型(SSM),能夠以線性複雜度處理長信息序列,從而在內存和計算開銷上更具優勢。Nemotron-H 系列通過用線性狀態空間層替換大部分注意力層,在長上下文處理上實現了2-3倍的吞吐量提升,同時保持了高精度。
獨特的推理控制功能
這款模型的一大創新是其內置的“推理”功能,允許用戶在模型輸出最終答案前進行自我檢查。用戶可以通過簡單的控制符(如 /think
或 /no_think
)來開啓或關閉此功能。模型還支持運行時“思考預算”管理,開發者可以限制用於內部推理的令牌數量,從而在準確性和延遲之間取得平衡。這對於客戶支持或自主代理等對響應速度有要求的應用場景尤爲關鍵。
嚴格的開放許可,瞄準企業應用
英偉達根據其開放模型許可協議發佈了 Nemotron-Nano-9B-V2,該協議對企業友好且高度寬鬆。英偉達明確表示,企業可以自由地將該模型用於商業用途,並且無需爲使用該模型支付費用或版稅。
儘管如此,協議仍有一些核心要求,例如用戶必須遵守內置的安全機制、在重新分發模型時進行歸屬標註,並遵守相關法律法規。英偉達表示,該協議旨在確保負責任和合乎道德的使用,而不是通過限制商業規模來盈利。這使得 Nemotron-Nano-9B-V2成爲了那些希望在降低成本和延遲的同時,保持高精度的企業開發者的理想選擇。