Workflow
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位·2025-05-31 11:34

明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好! 斯坦福最近披露了一组新发现,结果真的太亮眼了。 由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%—— (在NVIDIA L40S GPU上进行基准测试,性能百分比定义为参考时间除以生成的kernel_size时间) 更惊人的是,这一切都是 意外实现 的。 研究团队本来的目标是生成合成数据以训练内核生成模型。 结果发现,仅在测试阶段生成的合成数据本身,竟然可以生成性能非常优秀的内核。 围观网友:没想到AI也要取代内核工程师了。 矩阵乘法(Matmul,FP32) :性能达到PyTorch torch.matmul 的101.3%。 二维卷积(Conv2D) :性能达到 torch.nn.Conv2D 的179.9%。 Softmax :性能达到 torch.softmax 的111.8%。 层归一化(LayerNorm) :性能达到 torch.nn.LayerNorm 的484.4%。 Conv2D+ReLU+MaxPool ...