生态破局
搜索文档
DeepSeek 开源 TileLang 与 CUDA 算子:AI 底层国产替代的关键尝试
小熊跑的快· 2025-09-30 09:11
文章核心观点 - DeepSeek发布实验版本,包含DSA(DeepSeek Sparse Attention)长文本训练推理降本技术和开源TileLang与CUDA算子版本[1] - 开源TileLang与CUDA算子版本被视为推动AI底层技术栈“自主可控”与“生态破局”的关键尝试,其意义远超技术分享本身[2][11] 技术自主权突破 - 旨在打破NVIDIA CUDA生态在GPU算子开发领域的长期垄断,CUDA作为闭源平台主导了从底层指令集到上层算子库的标准[2] - 解决技术卡脖子风险,避免国内在新模型研发中受限于NVIDIA的接口规范和更新节奏,甚至可能因供应链限制无法使用高阶功能[2] - TileLang作为“跨平台原型层”,其高级语言特性可脱离CUDA依赖,让开发者快速验证算子逻辑并轻松适配国产GPU框架[4] - 保留CUDA版本作为“精度基线”,为国产平台提供对齐标准,通过精度对比快速验证国产硬件上算子实现的正确性[4] 国产硬件生态适配 - 针对国产GPU(如华为昇腾、壁仞BR100、寒武纪思元)虽硬件算力追赶但缺乏与CUDA兼容算子库的适配壁垒问题[3] - 解决国产GPU生态中“算子库不完善”的瓶颈,避免新模型所需的定制化算子在国产平台上缺失导致“有硬件用不了”的局面[5] - 通过“分层开发”降低门槛:研究阶段用TileLang快速迭代,无需掌握CUDA或国产平台底层开发细节[6] - 落地阶段向国产硬件迁移,基于TileLang的精度基线用国产平台底层语言实现高效版本,形成“硬件迭代-算子适配-模型落地”的正向循环[6] 开源生态协同构建 - 通过共享核心算子的双版本实现吸引社区参与,构建自主算子生态网络,单一企业或机构难以覆盖所有场景的算子需求[7][8] - 研究者可基于TileLang快速开发并开源新算子原型,这些原型可直接被国产硬件厂商或框架团队复用[8] - 国内GPU厂商或AI框架团队可基于TileLang精度基线将开源算子适配到自家平台,并反馈优化代码到社区,逐步形成覆盖主流国产硬件的“统一算子库”[8] 新模型研究国产路径 - 为国内大模型、多模态等前沿领域研究提供“国产替代路径”,避免因长期使用CUDA及配套闭源工具导致“优化黑箱”和功能限制[9][10] - 研究阶段用TileLang实现快速原型,避免CUDA版本兼容性、License限制等问题阻碍创新[10] - 落地阶段基于国产硬件的优化版本,确保新模型能在自主可控的算力平台上部署,实现从研究到应用的全链条国产化[10]