行业投资评级 - 行业评级为“超配”,前次评级亦为“超配”,评级变动为“维持” [7] 报告核心观点 - 报告认为,由北京大学团队开发并于2025年1月开源的TileLang,有望解决国产AI芯片与英伟达CUDA平台之间以及国产芯片各平台之间的接口兼容性问题 [3] - TileLang通过其编译器自动完成优化,能有效提升国产AI芯片的性能,有望降低互联网大厂在生成式AI模型代码迁移时的成本,加速国产AI芯片的技术落地和商业化 [3][36] 高性能计算是生成式AI的技术基础 - GPU因其大量内核而具备卓越的并行计算能力,非常适合处理生成式AI中的矩阵计算任务 [12] - 英伟达的CUDA平台将GPU的并行计算能力转化为处理AI计算任务的能力,经过近二十年发展,引入了NVLink、混合精度训练(FP16)并支持Tensor Core,使矩阵计算速度得到数量级提升,构成了英伟达在高性能计算和AI计算领域的主要壁垒 [1][14][18] - 尽管成熟,CUDA编程仍需大量手动优化,且跨平台代码迁移成本高 [2] - Triton由Philippe Tillet于2019年提出,能自动化处理底层细节,降低GPU编程门槛,提升AI开发效率,并于2021年由OpenAI开源 [2][19] - Triton能跳过cuBLAS等闭源CUDA库直接生成PTX代码,代码更简洁且能自动进行多种优化,在多种场景下性能达到甚至超越CUDA优化库 [22] TileLang有望成为国产AI芯片的CUDA和Triton - 国产AI芯片厂商的高性能计算平台在框架兼容性、工具链完善度及开发者社区规模上,与英伟达CUDA平台存在差距 [2][28] - 国产AI芯片硬件架构互不兼容,各厂商平台无法通用,增加了开发者的适配成本和开发成本,不利于大规模推广 [2][28] - 英伟达自CUDA 11.6(2024年)起禁止使用转换层将CUDA功能引入第三方AI芯片平台,增加了向国产芯片的迁移成本 [24] - TileLang与Triton类似,是专为AI算子开发设计的程序语言,通过将高性能计算中的“分块技术”(Tile)作为关键,实现内存优化和自动调度 [3][32] - TileLang将优化工作与内核数据流解耦,由编译器自动推导优化策略,显著降低代码复杂度,例如将FlashAttention算子实现从500多行减少至80行,并保持性能持平 [32] - DeepSeek团队在DeepSeek-V3.2-Exp模型开发中正式使用TileLang进行原型开发,并将其作为精度基准 [35] - 截至2025年10月13日,TileLang在GitHub上已获得3.5k星标,并吸引华为昇腾、沐曦股份等国产芯片厂商进行适配 [36] 建议关注 - AI推理芯片:寒武纪、海光信息 [4][37] - 算力服务器:浪潮信息、中科曙光、华勤技术、神州数码 [5][37]
人工智能系列报告(九)、算力系列报告(二):TileLang:中国的CUDA和Triton
西部证券·2025-10-15 14:09