Appleデバイスでは、AI技術が驚くべき潜在能力を示しています。Gimlet Labsの最新研究によると、AIは最適化されたMetalコアを自動生成し、PyTorchの推論速度を87%向上させました。この画期的な成果は性能を向上させただけでなく、テストされた215のPyTorchモジュールで平均1.87倍の加速を実現し、ある作業負荷では数百倍の速度向上を達成しました。

研究者は、Anthropic、DeepSeek、OpenAIなどの複数のトップ機関から選ばれた8つのAIモデルを使用して、Appleデバイス向けに最適化されたGPUコアを生成しました。このプロセスはユーザーのコードを変更する必要もなく、新しいフレームワークを使うことなく、Appleハードウェア上で直接モデルの性能を向上させます。
実験では、Apple M4Maxチップを搭載したMac Studioをテスト対象とし、ベースライン設定としてPyTorchのeagerモードを使用しました。KernelBenchデータセットの215個のPyTorchモジュールが使用され、これらは単純な行列乗算から完全なモデルアーキテクチャに至るまで3つのカテゴリに分類されました。
テストプロセスは入力とPyTorchコードを受け取り、Metalコアを生成し、その正しさを評価することでした。データによると、試行回数が増えるにつれてAIが生成したコアの正しさが徐々に向上しました。例えば、5回目の試行では、正しい実装の割合は94%に達しました。また、モデルはコア生成において階層間の能力を示し、非推論モデルでも時折効果的なコアを生成できることもありました。
実験結果によると、GPT-5モデルは一部のタスクで4.65倍の速度向上を達成しました。驚くべきことに、o3モデルは一部のケースで遅延を9000倍も低下させました。研究では、単一モデルがすべてのタスクで最も良いパフォーマンスを発揮するとは限らず、複数のモデルを組み合わせてより優れたコアを生成できることがわかりました。
さらにパフォーマンスを向上させるために、研究者たちは追加の文脈情報、例えばCUDA実装やgputraceのパフォーマンス分析データを取り入れました。その結果、この方法によりパフォーマンスの加速が平均1.87倍となり、通常のエージェントよりも3倍の向上が見られました。
注意すべき点は、研究者がこの仕事があまり最終的なパフォーマンスの限界を示すものではなく、AIがコア生成において可能であることを検証することを目的としていることです。開発者の負担を減らすための自動化を通じて、この研究はAI技術がハードウェア最適化領域における重要な進展を示していると考えられています。
github:https://github.com/ScalingIntelligence/KernelBench/
ポイント:
🌟 AIが自動的にMetalコアを生成し、PyTorchの推論速度を87%向上させます。
⚡️ 215のPyTorchモジュールで平均1.87倍の加速を実現し、一部のワークロードでは数百倍の速度向上があります。
🔍 この研究はAIがコア生成において可能であることを検証し、ハードウェア最適化を支援します。
