生态破局 - 财报，业绩电话会，研报，新闻

生态破局

搜索文档

DeepSeek 开源 TileLang 与 CUDA 算子：AI 底层国产替代的关键尝试

小熊跑的快· 2025-09-30 09:11

文章核心观点 - DeepSeek发布实验版本，包含DSA（DeepSeek Sparse Attention）长文本训练推理降本技术和开源TileLang与CUDA算子版本[1] - 开源TileLang与CUDA算子版本被视为推动AI底层技术栈“自主可控”与“生态破局”的关键尝试，其意义远超技术分享本身[2][11] 技术自主权突破 - 旨在打破NVIDIA CUDA生态在GPU算子开发领域的长期垄断，CUDA作为闭源平台主导了从底层指令集到上层算子库的标准[2] - 解决技术卡脖子风险，避免国内在新模型研发中受限于NVIDIA的接口规范和更新节奏，甚至可能因供应链限制无法使用高阶功能[2] - TileLang作为“跨平台原型层”，其高级语言特性可脱离CUDA依赖，让开发者快速验证算子逻辑并轻松适配国产GPU框架[4] - 保留CUDA版本作为“精度基线”，为国产平台提供对齐标准，通过精度对比快速验证国产硬件上算子实现的正确性[4] 国产硬件生态适配 - 针对国产GPU（如华为昇腾、壁仞BR100、寒武纪思元）虽硬件算力追赶但缺乏与CUDA兼容算子库的适配壁垒问题[3] - 解决国产GPU生态中“算子库不完善”的瓶颈，避免新模型所需的定制化算子在国产平台上缺失导致“有硬件用不了”的局面[5] - 通过“分层开发”降低门槛：研究阶段用TileLang快速迭代，无需掌握CUDA或国产平台底层开发细节[6] - 落地阶段向国产硬件迁移，基于TileLang的精度基线用国产平台底层语言实现高效版本，形成“硬件迭代-算子适配-模型落地”的正向循环[6] 开源生态协同构建 - 通过共享核心算子的双版本实现吸引社区参与，构建自主算子生态网络，单一企业或机构难以覆盖所有场景的算子需求[7][8] - 研究者可基于TileLang快速开发并开源新算子原型，这些原型可直接被国产硬件厂商或框架团队复用[8] - 国内GPU厂商或AI框架团队可基于TileLang精度基线将开源算子适配到自家平台，并反馈优化代码到社区，逐步形成覆盖主流国产硬件的“统一算子库”[8] 新模型研究国产路径 - 为国内大模型、多模态等前沿领域研究提供“国产替代路径”，避免因长期使用CUDA及配套闭源工具导致“优化黑箱”和功能限制[9][10] - 研究阶段用TileLang实现快速原型，避免CUDA版本兼容性、License限制等问题阻碍创新[10] - 落地阶段基于国产硬件的优化版本，确保新模型能在自主可控的算力平台上部署，实现从研究到应用的全链条国产化[10]

国产替代

自主可控

生态破局

Artificial Intelligence

Artificial Intelligence

TileLang

CUDA 算子