高性能GPU/CPU内核开发

搜索文档
DeepSeek突然拥抱国产GPU语言,TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
36氪· 2025-09-30 10:52
DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。 开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。 海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。 有接触过的开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。 那么什么是TileLang,又为何引人瞩目? 首先,TileLang是一种专门用来开发GPU内核的领域专用语言,性能上可以对标英伟达CUDA,DeepSeek官方推荐使用此版本做实验,在方便调试和快速 迭代上有优势。 更重要的是,TileLang与国产算力生态适配,连华为昇腾都要在第一时间公告对TileLang的支持。 在几周前的华为全联接大会2025的开发者日上,TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并 保持了与官方版本持平的性能。 此外TileLang团队成员王磊和沐曦集成电路的高级总 ...