Workflow
AI生成内核
icon
搜索文档
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 11:34
AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本,在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核,无需专门训练生成模型 [4][40] - 具体性能提升:层归一化达PyTorch的484.4%,Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性,通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式,每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写,无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体,避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试,最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang(前英伟达cuDNN团队)、助理教授Azalia Mirhoseini(前DeepMind/Google Brain)和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据,意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需,智能搜索策略可解决复杂问题 [44][45] - 当前局限:FP16 Matmul性能仅达torch.matmul的52%,Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]