據AIbase報道,今天凌晨,智譜AI正式宣佈開源其最新“混合思考”模型——GLM-4.7-Flash。作爲30B規格中的最強競爭者,該模型在保持輕量化部署優勢的同時,憑藉卓越的推理與編碼能力,成功登頂同類規格模型的性能榜首。

QQ20260120-085557.png

性能領跑:30B級別的“全能王者

GLM-4.7-Flash 採用了 30B-A3B MoE(混合專家)架構。這意味着其總參數量爲300億,但實際處理任務時僅需激活約30億精銳參數。這種設計使其在資源佔用與處理能力之間找到了完美平衡點。

在多項嚴苛的基準測試中,GLM-4.7-Flash 的表現令人矚目,全面超越了阿里的 Qwen3-30B-A3B-Thinking-2507 以及 OpenAI 的 GPT-OSS-20B:

  • 軟件工程(SWE-bench Verified): 達到 59.2分,展現出頂尖的代碼修復能力。

  • 數學與推理: AIME25斬獲 91.6分,GPQA(專家級問答)達 75.2分

  • 工具協作: τ²-Bench 達到 79.5分,BrowseComp 爲 42.8分,在智能體(Agent)場景下極具競爭力。

開發者友好:靈活的本地化部署

該模型主打輕量化與實用性,特別適合本地或私有云環境下的智能體應用。爲確保性能穩定釋放,GLM-4.7-Flash 已獲得主流推理框架的支持:

  • vLLM 與 SGLang: 均已在 main 分支提供支持。使用 vLLM 時,開發者可通過 tensor-parallel-sizespeculative-config 等參數優化併發與解碼速度;SGLang 則支持使用 EAGLE 算法進一步提升推理效率。

  • Hugging Face: 支持直接通過 transformers 庫調用,降低了快速實驗與集成的門檻。

市場反饋:不犧牲輕便的性能躍遷

行業社區對該版本的發佈反響熱烈。網友普遍認爲,GLM-4.7-Flash 在不增加硬件負擔的前提下,顯著提升了實際任務中的“體感速度”。一位開發者評價道:“它在編碼和工具調用上的表現讓本地AI助手變得真正好用,這種性能與效率的平衡正是我們需要的。”

開源地址:https://huggingface.co/zai-org/GLM-4.7-Flash