在全球人工智能領域,Qwen 系列大型語言模型迎來了新成員 ——Qwen3的發佈。今日,通義宣佈將 Qwen3開源,帶來了令人振奮的技術革新。

此次發佈的旗艦模型 Qwen3-235B-A22B 以其2350億個參數的規模在多個基準測試中展現出強大的競爭力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等頂級模型。此外,Qwen3-30B-A3B 作爲小型 MoE 模型,其激活參數數量僅爲 QwQ-32B 的10%,但性能卻顯著提升,甚至是 Qwen3-4B 這樣的迷你模型也能與 Qwen2.5-72B-Instruct 相媲美。

QQ_1746525422474.png

QQ_1746525430762.png

此次開源的還有多個 Dense 模型,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,所有模型均在 Apache2.0許可下開放使用。用戶可以在 Hugging Face、ModelScope 及 Kaggle 等平臺上獲取到這些經過後訓練的模型,適用於各種開發和研究需求。針對不同的使用場景,推薦使用 SGLang 和 vLLM 等框架進行部署。

QQ_1746525526410.png

Qwen3模型支持兩種思考模式,分別是 “思考模式” 和 “非思考模式”。思考模式允許模型逐步推理,適合複雜問題,而非思考模式則提供快速響應,適合簡單問題。這樣的靈活設計使用戶能夠根據需求調節模型的 “思考” 深度。

在語言支持方面,Qwen3支持119種語言和方言,極大地拓寬了其國際應用的潛力。爲了提升預訓練的質量,Qwen3的數據集相比前一代 Qwen2.5幾乎翻了一番,達到了約36萬億個 token,涵蓋了多樣化的語言數據。

Qwen3的發佈將爲大型基礎模型的研究和開發帶來新的機遇,助力全球研究人員和開發者利用這一先進技術構建創新的解決方案。

劃重點:  

🌟 Qwen3-235B-A22B 在基準測試中表現卓越,開創語言模型新局面。  

🌍 Qwen3支持119種語言,滿足全球用戶需求,擴展國際應用。  

🔧 模型開源,用戶可在多個平臺輕鬆獲取和部署,促進研究與開發。