阿里巴巴正式推出新一代通義千問模型 Qwen3(千問3),並宣佈其開源。阿里雲表示,千問3是國內首個 “混合推理模型”,同時集成了 “快思考” 與 “慢思考” 的能力。相比於 DeepSeek-R1,千問3的參數量僅爲其三分之一,而部署成本大幅降低,使用僅需四張 H20顯卡即可實現滿血版的部署。

QQ_1745888061408.png

根據官方技術博客,千問3採用了混合專家(MoE)架構,擁有2350億個參數,實際激活時僅需220億參數。這款模型在預訓練階段使用了36TB 的數據,並通過多輪強化學習進行後訓練。同時,千問3能夠無縫結合非思考模式與思考模型。對於簡單問題,它可以迅速 “快思考”,而對於複雜問題,則可進行多步驟的 “深度思考”,從而提高模型的效率和穩定性。

阿里雲進一步表示,千問3的顯存佔用只有 DeepSeek-R1的三分之一,性能卻大幅提升。目前,千問3已經開源了兩款 MoE 模型(30B 和235B),以及六款密集模型(包括0.6B、1.7B、4B、8B、14B、32B)。其中,30B 參數的 MoE 模型性能提升超過10倍,激活僅需3B 的參數便可實現上代 Qwen2.5-32B 模型的性能表現。所有千問3模型均爲混合推理模型,用戶可以根據需求設置 “思考預算”,靈活調整性能和成本,以適應不同的應用場景。

開源後,用戶可以在魔搭社區、HuggingFace 等平臺上下載千問3模型並進行商業使用,也可以通過阿里雲的 API 服務來調用千問3。個人用戶還可通過通義 APP 體驗千問3的功能,而夸克也即將全面接入該模型。

展望未來,阿里雲計劃通過優化模型架構和訓練方法,進一步提升千問3的性能,旨在擴大數據規模、增加模型大小、延長上下文長度、拓寬模態範圍,並利用環境反饋來推動強化學習,實現長週期推理。通義千問團隊在技術博客中表示,Qwen3代表了通往通用人工智能(AGI)和超級人工智能(ASI)旅程中的一個重要里程碑,標誌着行業從專注於訓練模型的時代向以訓練 Agent 爲中心的新時代轉型。

劃重點:  

🌟 阿里巴巴推出千問3模型,參數量僅爲 DeepSeek-R1的三分之一,顯著降低部署成本。  

🚀 千問3採用混合專家架構,性能提升超過10倍,支持靈活的 “思考預算” 設置。  

📈 開源後用戶可在多個平臺下載和使用千問3,未來將不斷優化以擴展其功能。