阿里巴巴近日開源了其最新架構模型 Qwen3-Next-80B-A3B,標誌着公司在人工智能生成內容(AIGC)方面的重要進展。該模型在混合注意力機制、高稀疏性專家模型(MoE)和訓練方法上進行了創新,展示出顯著的性能提升。
Qwen3-Next 的總參數達到800億,但在推理過程中僅激活30億參數,使得訓練成本相較於其前代產品 Qwen3-32B 大幅下降了90%。此外,其推理效率提升了10倍,特別是在處理超長文本(32K 以上)時的表現更加突出。這使得 Qwen3-Next 在執行指令和處理長上下文任務時,能夠與阿里旗艦模型 Qwen3-235B 相媲美,甚至超越了谷歌最新的 Gemini-2.5-Flash 思考模型。
該模型的核心創新在於混合專家架構,採用門控 DeltaNet 和門控注意力的結合。通過這種設計,Qwen3-Next 克服了傳統注意力機制在處理長上下文時的不足,既保證了速度,又提升了上下文學習能力。模型在訓練過程中採用了高稀疏性 MoE 結構,能夠在不影響性能的前提下最大化資源利用。
此外,Qwen3-Next 還引入了多 token 預測機制,提升了模型在投機解碼中的表現。預訓練階段,Qwen3-Next 的效率相較於 Qwen3-32B 顯著提高,訓練成本僅爲其9.3%,但性能卻更優。在推理速度方面,Qwen3-Next 在處理長文本時,吞吐量相比 Qwen3-32B 提升了7倍,甚至在更長的上下文中仍保持了10倍的速度優勢。
阿里的這一新模型不僅在技術上取得了突破,也獲得了廣泛的關注和好評,尤其是在開發者和研究人員中。無論是在技術創新還是市場競爭力方面,Qwen3-Next 都標誌着阿里巴巴在人工智能領域的進一步領先。
在線體驗:https://chat.qwen.ai/
開源地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
劃重點:
🌟 Qwen3-Next-80B-A3B 模型總參數800億,訓練成本下降90%,推理效率提升10倍。
🔍 新模型採用混合專家架構與多 token 預測機制,顯著增強上下文處理能力。
🚀 在推理速度上,Qwen3-Next 在超長文本場景中表現出色,吞吐量相比前代模型提高了7到10倍。