高性能GPU/CPU内核开发 - 财报，业绩电话会，研报，新闻

高性能GPU/CPU内核开发

搜索文档

DeepSeek突然拥抱国产GPU语言，TileLang对标CUDA替代Triton，华为昇腾Day0官宣支持适配

36氪· 2025-09-30 10:52

TileLang技术特性 - TileLang是一种专门用于开发GPU内核的领域专用语言，性能可对标英伟达CUDA，采用Python式语法并在TVM之上构建编译器基础架构[4][13] - 其核心设计理念是将调度空间与数据流解耦并封装为可自定义的注解和原语，以Tile作为编程模型核心概念，直观控制数据在全局内存、共享内存和寄存器间的流动[15] - 提供三个层次编程接口：硬件无关的高层接口供初学者使用，包含预定义优化操作的Tile Library供有经验开发者使用，以及允许直接操作线程同步等底层特性的线程原语供专家用户使用[15] 性能优势与效率提升 - 使用TileLang只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[3] - 在FlashAttention算子开发中，代码量从500多行减少至80行，并保持与官方版本持平的性能[5] - 在H100上的MLA解码速度，TileLang编写的内核做到与FlashMLA相当[21] 行业生态适配与合作 - TileLang与国产算力生态适配，华为昇腾在第一时间公告对TileLang的支持[4] - 沐曦集成电路的高级总监董兆华与TileLang团队成员共同讨论沐曦GPU与TileLang的适配[5] - 该语言由北大团队主导开发，核心人物包括王磊、董宇骐以及北大计算机学院副研究员、博士生导师杨智[9] DeepSeek与TileLang的合作关系 - DeepSeek在v3.2中开源TileLang版本算子，其受关注程度超过新稀疏注意力机制DSA[1] - DeepSeek团队使用TileLang快速开发原型，之后用更底层的方法进一步优化性能，v3.2论文中提到在内核层面共享k-v提升计算效率，让DSA的闪电索引器机制运行速度远超传统实现[17] - DeepSeek v3.2验证了TileLang确实可以用来训练模型，TileLang发起人王磊发帖致敬DeepSeek敢于使用新编程语言开发核心产品[23]