“客户测950，不到一周下单了”，DeepSeek V4 逼出昇腾真功夫

昇腾产品市场认可度与销售表现 - 近期昇腾销量比以前更好，客户认可度提高，有客户测试昇腾950后不到一个礼拜就决定下单[2] - 互联网公司和大模型初创公司已开始完全基于昇腾进行模型的训练和推理[3] - 客户对推理和训练的需求不同：推理看重性价比和快捷性，训练则要求经过长时间可靠性验证的成熟、稳定的大规模集群系统[3] - 今年大量客户开始基于昇腾训练大模型和超大参数模型，包括一些国内领先的模型，体现了昇腾产品成熟度的提升[3] 昇腾产品在关键模型中的能力验证 - DeepSeek V4的发布验证了昇腾超节点全系列产品的能力，该系列产品均支持DeepSeek V4[4] - 昇腾950系列芯片可兼顾低时延和高吞吐：在950 DT系列上，DeepSeek V4 Flash模型实现低于10毫秒的低时延推理，Pro模型实现约20毫秒的低时延推理；在Atlas A3系列上，DeepSeek V4 Flash实现约30毫秒的高吞吐性能[4] - DeepSeek V4模型结构变化大，引入了混合注意力机制、MoE结构等，对硬件和软件栈提出了更高要求[4] - 昇腾CANN软件栈针对DeepSeek V4的关键模块（如mHC、混合注意力、Compressor、MoE）进行了原生适配和优化[5][6] 昇腾硬件架构与芯片的演进 - 去年以来，昇腾对芯片体系进行了一轮大幅调整，以应对大模型推理和Agent场景的新需求[9] - 调整方向包括：重新优化算力配比以提升不同负载的适配能力；引入SIMT能力以增强编程灵活性；强化细粒度访存能力[9] - 加速推进低精度计算能力（如FP8、FP4）的落地，以满足产业对更高Token产出效率的需求[9] - 团队“拼尽全力”将FP8、FP4提前做出来，使得Token产出能力相比此前实现翻倍提升[10] - 面对新的算力周期，芯片厂商不仅要提升峰值算力，更要围绕真实业务场景优化计算效率、访存能力、编程体验和生态开放能力[10] 昇腾软件栈的升级与生态建设 - 昇腾对软件栈进行了重要升级，将原本高度耦合的软件体系拆分为更清晰的结构模块，使能力模块化、结构化，便于开发者调用和推动代码开源[12] - 此次架构解耦工作量巨大，接近“把软件重写一遍”，原计划一年半完成，最终在4个月内完成核心改造，开发者试用后反馈更容易上手[14] - 推出了面向Python开发者的新编程方式PyPTO，旨在与业界主流的Triton编程方式保持一致，降低开发者迁移门槛[14] - 坚持Python（负责灵活便捷）与C语言（负责性能优化）并行的开发路径[15] - 昇腾生态建设的核心是让开发者能够理解、使用和扩展底层能力，而非简单“放代码”[15] - 今年以来昇腾算子开发者数量增长较快，已达到约1.3万人；社区月活开发者约2000人[15] - 模型从CUDA迁移到CANN的时间大幅缩短：比较熟悉的模型约需6小时（如千问3.6），模型架构较新的可能需要一两周[15] - 昇腾坚决拒绝走“仿CUDA”的捷径，认为那无法建设真正自主的AI计算生态[16] - 生态建设思路：底层关键能力必须自主掌握；上层兼容主流开发方式和开发者习惯；逐步将自主NPU的关键特性和功能组件引入主流开源社区[18] - 积极与海外开源社区（如Triton、PyTorch）沟通，推动相关插件和能力进入主流项目，以改变被动适配的状态[19] 昇腾面临的挑战与未来展望 - AI产业面临“一卡难求”的局面，包括昇腾内部也面临算力资源紧张的问题[8] - Agent应用的兴起对时延、多轮推理、长序列处理及系统综合能力提出更高要求，可能带来新的“算力荒”，这既是机会也是挑战[23] - 昇腾团队的目标是不满足于某一轮市场机会，而是要在每一轮产业变化中持续暴露问题、修正问题、补齐能力[23] - 昇腾团队认识到产品永远不完美，面向未来还有很多工作要做[24] - 生态建设是长期且困难的工作，取决于公司是否愿意持续投入、压到极致并在短时间内补齐能力，以及是否有能力进行长期、持续的投入[22]