在本地運行大模型,過去往往意味着要在性能或功能上做出妥協。然而,隨着 Qwen3.6系列模型的發佈,這一認知正在被打破。近日,開發者 Piotr Migdał 在 MacBook Max M5128GB 設備上對 Qwen3.627B 進行了深度實測,結論令人興奮:這不僅是“能用”,更是一款足以滿足通用智能需求、無需犧牲體驗的強大工具。

從技術指標來看,該模型展現出了驚人的效率。在8-bit GGUF 量化版本下,配合 llama.cpp 服務及多 token 預測(MTP)、flash attention 等優化技術,Qwen3.627B 在64K 上下文中能達到32tok/s 的穩定速度。此外,其35B A3B MoE 版本在同等配置下速度甚至能突破100tok/s。

image.png

更核心的突破在於智力水平。根據 Artificial Analysis 的評分,Qwen3.627B 拿到了37分,這一成績直接對標了2025年中期的 GPT-5或 Claude Sonnet4.5水平。相比之下,此前作爲本地編碼模型首選的 Gemma431B 僅爲29分。這意味着在短短一年內,本地模型已從兩年前的“前沿”跨越到了接近一年前的頂級付費 API 水平。

image.png

在實際場景測試中,該模型表現同樣亮眼。無論是撰寫具有複雜押韻要求的八行詩,還是通過 pnpm 自動生成六邊形掃雷遊戲,Qwen3.627B 均能一次性高質量完成任務。對於開發者而言,本地模型最大的優勢在於掌控感——無需擔心服務被收回或產生高昂的 API 調用費,模型完全運行在個人硬盤之上。

這一發現標誌着一個重要的拐點:當消費級硬件運行的開源模型,智力已足以與頂級付費模型抗衡時,開發者真正擁有了將高性能 AI 植入個人工作流的底氣。對於追求生產力與隱私安全的創作者來說,這無疑是目前最值得關注的技術選擇之一。