Workflow
国产芯片生态
icon
搜索文档
天下苦CUDA久矣,又一国产方案上桌了
量子位· 2026-01-30 21:34
行业核心问题:国产算力生态的挑战与机遇 - 当前国产AI发展的核心矛盾已从“芯片够不够多”转向“生态好不好使”,即硬件供应增加但软件生态成熟度不足,导致开发者迁移成本高、适配周期长、性能释放不稳定[1][3][11] - 制约AI落地效率的关键并非模型能力,而是底层软件生态,特别是算法与硬件之间的“翻译”链路,这决定了芯片理论性能能否转化为可用性能[5][11][12] - 全球AI生态被英伟达CUDA高度垄断,超过90%的重要AI训练任务和80%以上的推理任务运行于其GPU上,其开发者生态覆盖超590万用户,算子库规模逾400个,深度嵌入90%顶级AI学术论文的实现流程,软件生态是其核心护城河[28][30][31] 技术突破口:高性能算子开发 - 算子(Kernel)是连接AI算法与计算芯片的“翻译官”,其开发质量直接决定模型的推理速度、能耗与兼容性,但目前行业仍处于依赖顶尖工程师经验与反复试错的“手工作坊”时代,开发周期动辄数月[13][14] - 真正的突破口在于打通算法到硬件的工程链路,核心是高性能算子的开发,这需要超越传统的经验式推理,实现对复杂计算任务中物理约束、内存布局与并行调度逻辑的深度理解与优化[12][13][16] 解决方案:KernelCAT AI Agent - KernelCAT是一款本地运行的AI Agent,定位为“计算加速专家”,专注于算子开发和模型迁移,同时具备通用全栈开发能力,能处理环境配置、依赖管理、错误诊断等任务,提供CLI终端版和桌面版两种形态[17] - 其核心创新在于将大模型的智能理解能力与运筹优化算法的严谨搜索相结合,系统性地解决算子调优问题,例如通过运筹学建模和数学优化算法,自动为昇腾芯片上的FlashAttentionScore算子找到最优配置,实现延迟降低最高22%,吞吐量提升最高近30%[19][21] - 在性能测试中,KernelCAT自研的向量加法算子在华为昇腾平台上,对比华为开源算子及商业化算子,在7个不同测试规模下均取得领先,任务完成仅用时10分钟,最高加速比达到332%[23][24][26] 应用案例与成效 - 在DeepSeek-OCR-2模型于华为昇腾910B2 NPU上的部署案例中,KernelCAT将原本需要顶尖工程师团队数周完成的适配工作缩短至小时级(含模型下载、环境构建时间)[34] - 通过精准解决vLLM、torch等依赖库间的版本互锁问题,并替换CUDA专有操作为Ascend原生实现,KernelCAT使该模型在国产芯片上实现了35倍的推理加速,吞吐量飙升至550.45 toks/s[35][37] - 该案例证明,通过深度工程优化,国产芯片能够从“能跑”进化为承载顶级多模态模型推理任务的“性能引擎”[36] 行业意义与范式转变 - KernelCAT的出现,标志着行业开始从依赖既有生态(如CUDA)向构建能够自我演进的计算基础转变,为解决“天下苦CUDA久矣”的僵局提供了一个国产答案[7][39] - 其价值在于证明,通过智能与算法结合的AI Agent,可以在算子这一核心底层领域实现高效开发与优化,为打破生态垄断、释放国产硬件潜力提供了新的技术路径[27][32]
国产芯片厂商争相认领新版DeepSeek
21世纪经济报道· 2025-10-01 23:00
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率[1] - 新模型发布后,公司官方App、网页端、小程序同步更新,并全面下调API价格,降幅在50%到75%不等[1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本的训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制[7] 国产芯片生态协同 - DeepSeek-V3.2-Exp发布几乎零时差引发华为、寒武纪、海光等国产芯片厂商“认领”,标志着国产AI软硬件生态协同初具雏形[1] - 寒武纪在新模型发布后4分钟率先宣布适配,开源大模型推理引擎vLLM-MLU源代码[1] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现[2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能[2] 行业标准与生态建设 - DeepSeek几乎已获得国产推理模型大部分份额,成为国产开源模型标杆,由深度求索公司来定义国产芯片或组建国产芯片生态更为合适[4] - 行业专家认为顺序应该是DeepSeek先去定义国产芯片标准,让国产芯片厂商跟进,让DeepSeek定义行业,而非DeepSeek模型去适配国产芯片[5] - 深度求索公司在8月下旬发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向[7] 技术开发与工具创新 - 深度求索模型在兼容CUDA基础上,使用高级语言“TileLang”进行快速原型开发,TileLang作为精度基线逐步使用底层语言实现更高效版本[8] - TileLang是专为AI算子开发设计的编程语言,由北京大学计算机学院杨智团队主导开发,TileAI社区发起人王磊博士团队于2025年1月开源[9] - 公司CEO梁文锋位列相关论文作者名单,显示公司深度参与核心技术研发[8] 云计算与产业应用 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设[9] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座[9] - 相比英伟达用二十年建立生态,DeepSeek几乎用了不到一年时间飞速完成初步生态追赶[9]
DeepSeek与国产芯片的“双向奔赴”
21世纪经济报道· 2025-10-01 07:14
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型发布后,公司同步更新官方App、网页端及小程序,并全面下调API价格,降幅在50%到75%不等 [1] - V3.2-Exp版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证 [7] 国产芯片生态协同 - 新模型发布后4分钟内,寒武纪率先宣布适配DeepSeek-V3.2-Exp,并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能 [2] 行业标准与生态建设 - 深度求索公司通过发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式的国产芯片,为国产芯片发展指明方向 [6] - 业内高管认为,应由DeepSeek定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片,DeepSeek已成为国产开源模型的标杆 [2][5] - 中国本土AI行业对DeepSeek模型的高度共识,使深度求索公司敢于先行先试,组建国产芯片生态 [7] 技术创新与工具链 - DeepSeek-V3.2-Exp采用的稀疏注意力机制,疑似基于深度求索公司今年2月发表论文中的原创机制,公司CEO梁文锋位列作者名单 [7] - 模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [7][8] 云计算厂商的生态参与 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设 [8] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座 [8] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶 [8]