ローカルで大規模モデルを実行することは、過去には性能や機能の面で妥協を強いられていました。しかし、Qwen3.6シリーズモデルのリリースにより、この認識は変わりました。最近、開発者であるPiotr Migdał氏がMacBook Max M5128GBデバイス上でQwen3.627Bを深くテストした結果、驚きの結論に至りました。「使える」だけでなく、汎用的な知能ニーズを満たし、体験を犠牲にすることなく使用できる強力なツールであることが示されました。
技術指標を見ると、このモデルは驚くほど効率的です。8ビットGGUF量子化バージョンでは、llama.cppサーバーおよび複数トークン予測(MTP)、flash attentionなどの最適化技術と併せて、64Kの文脈内で安定した32tok/sの速度を達成しています。また、その35B A3B MoEバージョンは、同等の構成下で100tok/sを超える速度も可能となっています。

さらに重要な進歩は知的水準です。Artificial Analysisによるスコアリングでは、Qwen3.627Bは37点を獲得し、これは2025年半ばのGPT-5やClaude Sonnet4.5レベルと直接対等です。これに対し、以前のローカルコードモデルの選択肢であったGemma431Bは29点でした。これにより、わずか1年間でローカルモデルが2年前の「先端」から、ほぼ1年前の最高クラスの有料APIレベルに到達したことがわかります。
実際のシナリオでのテストでは、このモデルのパフォーマンスも非常に優れています。例えば、複雑な韻を要求する八行詩の執筆や、pnpmを介して六角形のマインスイーパーゲームを自動生成するなど、Qwen3.627Bは一度で高品質にタスクを完了できます。開発者にとってローカルモデルの最大の利点は、コントロール感です。サービスが終了したり、高いAPI呼び出し費用が発生したりすることを心配する必要がありません。モデルは完全に個人のハードディスク上でのみ動作します。
