在蘋果設備上,AI 技術正展現出驚人的潛力。根據 Gimlet Labs 的最新研究,AI 能夠自動生成優化的 Metal 內核,使得 PyTorch 推理速度提升了87%。這一突破性成果不僅提高了性能,還在測試的215個 PyTorch 模塊上實現了平均1.87倍的加速,某些工作負載的速度甚至提高了數百倍。

研究人員選取了來自多個頂尖機構的八個 AI 模型,包括 Anthropic、DeepSeek 和 OpenAI,利用這些模型爲蘋果設備生成優化的 GPU 內核。這一過程無需修改用戶代碼或使用新的框架,直接在蘋果硬件上提升模型性能。
在實驗中,研究團隊選擇了 Mac Studio (搭載 Apple M4Max 芯片) 進行測試,基準設置爲 PyTorch 的 eager 模式。實驗採用了 KernelBench 數據集中的215個 PyTorch 模塊,這些模塊被分爲三類,涵蓋從簡單的矩陣乘法到完整的模型架構。
測試過程包括接收輸入和 PyTorch 代碼,生成 Metal 內核,並評估其正確性。數據顯示,隨着嘗試次數的增加,AI 生成內核的正確性逐步提升。例如,在第五次嘗試時,正確實現的比例達到了94%。此外,模型們在生成內核時表現出了跨層級的能力,儘管非推理模型有時也能生成有效內核。
實驗結果表明,GPT-5模型在某些任務上實現了4.65倍的速度提升。更令人驚訝的是,o3模型在某些情況下甚至將延遲降低了9000倍。研究還發現,單一模型在某些任務上並不總是表現最好,多個模型的結合能夠生成更優的內核。
爲了進一步提升性能,研究者嘗試引入額外上下文信息,如 CUDA 實現和 gputrace 的性能分析數據,結果顯示這種方法在性能加速方面達到了平均1.87倍,相比於普通智能體的1.31倍提升了三倍。
需要注意的是,研究人員強調,這一工作並不是爲了展示最終的性能極限,而是爲了驗證 AI 在內核生成中的可行性,希望通過自動化減少開發人員的負擔。整體而言,這項研究標誌着 AI 技術在硬件優化領域的一個重要進展。
github:https://github.com/ScalingIntelligence/KernelBench/
劃重點:
🌟 AI 自動生成 Metal 內核,提升 PyTorch 推理速度87%。
⚡️ 在215個 PyTorch 模塊上實現平均1.87倍的加速,部分工作負載速度提升數百倍。
🔍 研究旨在驗證 AI 在內核生成的可行性,助力硬件優化。
