Workflow
苹果芯片Metal内核
icon
搜索文档
AI生成苹果Metal内核,PyTorch推理速度提升87%
量子位· 2025-09-04 16:37
文章核心观点 - AI自动生成苹果Metal GPU内核的技术被证明可行,并在实验中显著提升了PyTorch在苹果设备上的推理速度,展示了AI在硬件底层优化方面的潜力 [4][46][52][53][54] 实验设置与方法 - 研究选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型进行测试,包括claude-sonnet-4、claude-opus-4、gpt-4o、gpt-4.1、gpt-5、o3、deepseek-v3、deepseek-r1 [6] - 测试输入来自KernelBench数据集中的215个PyTorch模块,涵盖三个层级:Level 1简单原始操作(91个案例)、Level 2多操作序列(74个案例)、Level 3完整模型架构如AlexNet和VGG(50个案例) [7][8] - 评估指标包括AI生成内核的正确性及其相较于基准PyTorch eager mode的性能提升,测试硬件为配备Apple M4 Max芯片的Mac Studio [9][10] - 测试流程为接收提示和PyTorch代码后生成Metal内核,并验证正确性,编译失败或错误可重试最多5次 [11] 实验结果:正确性与性能 - AI生成内核的正确性随尝试次数增加而提升,例如o3模型第一次尝试有约60%概率得到可用实现,第5次尝试时可用实现比例达到94% [12] - 推理模型非常擅长跨层级生成正确内核 [14] - 性能提升显著,AI生成内核在215个PyTorch模块上实现了平均1.87倍的加速,部分工作负载比基准快数百倍 [3][16] - 具体案例显示,GPT-5在Mamba 25状态空间模型上实现4.65倍加速,o3在某些案例中将延迟提升超过9000倍 [16][17] - GPT-5平均带来约20%的加速,但在34%的问题上生成最优解,另外30%的问题上其他模型生成的解更优,表明无单一模型能在所有问题上都生成最优内核 [17][20][21][23] 智能体群体实验 - 组合多个模型的智能体群体策略实现了比单一模型更高的性能提升,在各层级平均加速31%,在Level 2问题上加速42% [24][25][26][27] - 在仅提供输入问题和提示的情况下,智能体群体已表现良好 [30] - 为智能体提供额外上下文(如优化过的CUDA参考实现和M4芯片的gputrace性能分析信息)后,性能进一步提升,实现了平均1.87倍加速,相较于普通智能体的1.31倍平均加速,提升幅度提高了三倍 [32][38] 技术背景与研究定位 - GPU内核负责将PyTorch函数拆解后的张量运算转换为GPU可执行的低级指令,其性能对运算效率至关重要 [42][43][44][45] - 研究直接对比的是PyTorch eager mode,而非经过ONNX导出和编译优化的部署环境原生格式,因此其重点在于原型验证和展示AI自动生成内核的可行性,而非追求部署环境的最终性能极限 [49][50][51][52][53][54]