通義千問團隊宣佈推出Qwen3,這是Qwen系列大型語言模型的最新成員。Qwen3系列模型在代碼、數學和通用能力等基準測試中表現出色,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型相比,展現了極具競爭力的結果。其中,小型MoE模型Qwen3-30B-A3B的激活參數數量僅爲QwQ-32B的10%,但表現更勝一籌,而像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。
此次,通義千問團隊開源了兩個MoE模型的權重:Qwen3-235B-A22B,一個擁有2350多億總參數和220多億激活參數的大模型;以及Qwen3-30B-A3B,一個擁有約300億總參數和30億激活參數的小型MoE模型。此外,六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache2.0許可下開源。
Qwen3模型支持兩種思考模式:思考模式和非思考模式。思考模式下,模型會逐步推理,經過深思熟慮後給出最終答案,適合複雜問題;非思考模式下,模型提供快速、近乎即時的響應,適用於簡單問題。這種靈活性使用戶能夠根據具體任務控制模型進行“思考”的程度,實現穩定且高效的“思考預算”控制能力。
Qwen3模型支持119種語言和方言,爲國際應用開闢了新的可能性。在預訓練方面,Qwen3的數據集相比Qwen2.5有了顯著擴展,使用了約36萬億個token進行預訓練,涵蓋了119種語言和方言。預訓練過程分爲三個階段,最終確保模型能夠有效處理更長的輸入。
爲了開發能夠同時具備思考推理和快速響應能力的混合模型,Qwen3實施了一個四階段的訓練流程,包括長思維鏈冷啓動、長思維鏈強化學習、思維模式融合和通用強化學習。這一流程旨在爲模型配備基本的推理能力,並進一步增強模型的通用能力。
Qwen3的發佈和開源將極大地推動大型基礎模型的研究與開發。通義千問團隊的目標是爲全球的研究人員、開發者和組織賦能,幫助他們利用這些前沿模型構建創新解決方案。
Qwen3現已在Hugging Face、ModelScope和Kaggle等平臺上開放使用,用戶可以輕鬆將其集成到研究、開發或生產環境中。
huggingface
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社區
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat
https://chat.qwen.ai
阿里雲百鍊(即將上線,並提供100萬tokens免費體驗)
https://www.aliyun.com/product/tongyi