近日,全球知名的大模型開放平臺 Hugging Face 正式發佈了其最新開源模型 ——SmolLM3。這款模型擁有30億參數,儘管參數量相對較小,但其性能顯著超過了同類的開源模型,如 Llama-3.2-3B 和 Qwen2.5-3B。

SmolLM3不僅支持128k 的上下文窗口,還能夠流暢處理英語、法語、西班牙語、德語等多種語言的文本,標誌着在小參數模型領域的又一重要進展。

image.png

多種推理模式,靈活應對需求

SmolLM3具備深度思考和非思考兩種推理模式,用戶可以根據實際需要靈活切換。這一創新設計讓模型在處理複雜問題時,能夠更好地發揮其推理能力,尤其是在需要深入分析的場景下。

開源架構,助力研究與優化

值得注意的是,Hugging Face 對 SmolLM3的架構細節、數據混合方法以及模型訓練流程均進行了公開。這一開放策略將極大地促進開發者們對該模型的研究與優化,推動開源 AI 模型的進一步發展。

模型架構與訓練配置

SmolLM3採用了先進的 transformer 解碼器架構,借鑑了 SmolLM2的設計,同時對 Llama 進行了關鍵性改進,以提升效率和長上下文的表現。具體而言,模型使用了分組查詢注意力機制和文檔內掩碼技術,以確保長上下文訓練的有效性。

在訓練配置方面,SmolLM3的參數量爲3.08B,使用了36層的深度結構,優化器爲 AdamW,經過24天的分佈式訓練,最終形成了強大的模型。

三階段混合訓練,提升能力

該模型的訓練過程分爲三個階段,利用多種類型的數據進行混合訓練。在第一階段,模型通過網絡、數學和代碼數據的綜合訓練建立通用能力;第二階段則引入更高質量的數學與代碼數據;最後,在第三階段中,模型進一步增強了對數學與代碼數據的採樣,提升了其推理和指令遵循能力。

隨着 SmolLM3的發佈,Hugging Face 再一次鞏固了其在 AI 領域的領先地位。此模型不僅具備強大的推理能力,還以其高效的性能爲開發者提供了豐富的應用前景。未來,隨着更多的開源研究與社區合作,SmolLM3有望在各類應用場景中發揮更大的作用。

基礎模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

推理和指導模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B