先日のWWDC(世界開発者会議)で、人工知能ソフトウェアプラットフォームであるLM StudioとApple社が共同で、非常に技術的な成果を発表しました。4台のMac Studioをクラスタ構成にして、Moonshot AIが開発したエースモデルであるKimi K2.6を成功裏に実行しました。このデモは、Apple Siliconアーキテクチャが超大規模なAIモデルを処理する上で持つ大きなポテンシャルを示しています。
Kimi K2.6モデルは、進んだMoE(Mix of Experts)アーキテクチャを採用しており、全体のパラメータ数は1兆に達します。動的エキスパートスケジューリングにより、推論時に約320億のパラメータのみをアクティブ化し、計算負荷が大幅に軽減されていますが、全モデルの重みをロードするには依然として厳しいVRAMの要件があります。FP16精度で計算すると、少なくとも2TBのメモリ容量が必要です。従来のデータセンターでは、これには通常8~16枚の高級GPUを組み合わせたサーバークラスターが必要で、コストは数百ドルにもなります。
しかし、今回のデモは、画期的な技術経路によってこのハードルを乗り越えました。M3 Ultraチップを搭載した4台のMac StudioはThunderbolt5インターフェースで接続され、macOSの最新バージョンに含まれるRDMA-over-Thunderbolt技術を活用して、物理的なデバイスの境界を打ち破りました。これにより、複数のデバイス間でメモリを直接共有することが可能となり、合計で約2TBの統一メモリを論理的な「巨大メモリプール」として統合し、1兆パラメータのモデルの重みを簡単に収容できるようになりました。現場でのデモでは、このクラスターが非常に優れた性能を発揮し、生成速度は秒間約28トークンに達し、従来のGPU計算センターに比べて消費電力がはるかに低かったです。
さらに、LM Studioは今回のコラボレーションの中で重要なコンポーネントであるLM Linkを発表しました。このツールはTailscale Mesh VPNアーキテクチャに基づいており、エンドツーエンドの暗号化経路を通じて、ユーザーが安全にこのローカルなMac Studioクラスターをリモートからアクセスできるようにします。これは、ユーザーがマシンのそばにいなくても、MacBookやiPhoneを使用して、あらゆるネットワーク環境でクラスターの計算力をリモートで呼び出せるようになったことを意味しています。また、すべての機密データはローカルで完結して処理されるため、第三者のクラウドサーバーを通じることはありません。
このデモは、技術的な展示だけでなく、明確な業界のシグナルも示しています。Apple Siliconは、統一メモリアーキテクチャと効率的なマルチデバイス接続能力を備えており、大規模モデルのローカル配備の新たな選択肢として注目されています。大規模モデルの推論を頻繁かつ長期的に実行する企業にとって、この方法は高価なクラウド月額利用料の代わりに「ハードウェアを購入」することで、長期間の運用において顕著なコストメリットを持っています。
「エンターテイメント級」のハードウェアクラスターの性能が継続的に向上していることにより、AI技術の応用における組織的な障壁はさらに低下しています。この成果は、今後、最先端の人工知能のイノベーション源が、大型スーパーコンピュータを持つ少数のテック大手に限られることなく、非中央集権的な計算ネットワークが新たな発展機会を迎えることを示唆しています。
