华为升腾950芯片 - 财报，业绩电话会，研报，新闻

华为升腾950芯片

搜索文档

2026-04-28 13:07

关键要点总结一、涉及的公司/行业 * **公司**：DeepSeek（深度求索）、华为、智谱 AI、MiniMax、月之暗面、阶跃星辰、寒武纪、海光、摩尔线程、沐曦、昆仑芯、平头哥、天枢、毕升[1][4][11][12][13][14] * **行业**：人工智能大模型、国产算力芯片、云计算[1][4][11] 二、 DeepSeek-V4 模型的核心观点与表现 * **综合能力**：超过 Claude 3.5 Sonnet，与开启思考模式的 Claude 4.0 Opus 相比仍有差距，但已大幅超越国内所有开源模型[2] * **代码能力**：与智谱 AI 的 GLM-5.1 水平相当，与 GPT-3.5 Codex 在基础代码能力和多轮工程化测试中表现相当，但在处理错误路径、TypeScript 检查等工程收尾环节略逊于 Codex[2][3] * **性价比优势**：核心优势是超高性价比，成本约为海外同等能力、1M上下文闭源模型的十分之一，约为国内同类模型的四分之一[1][3] * **具体成本对比**：在一次包含两个测试任务的对比中，使用 DeepSeek-V4 的成本（享受25%折扣后）约为 1.4 元人民币，而使用 Claude 4.0 Opus 完成类似任务成本预计在 3 美元以上，价格差距超过 10 倍[3] * **未来价格预期**：官方表示在 9 月份超节点上线后会推出更优惠的价格，预计将与当前折扣价接近[3] 三、核心技术架构与成本降低 * **架构创新**：在 V3.2 版本 DSA 架构基础上，新增 CSA 和 HCA 两种注意力机制，实现极致稀疏化和压缩[1][4] * **成本降低效果**：采用新架构的 DeepSeek-V4 Pro 模型，单 token 推理算力消耗仅为 V3.2 版本的 27%，节约了约 60% 至 70% 的推理成本，超出市场此前预期的 50%[1][4] * **算通比优化**：模型算通比为 6,144 FLOPS/byte，要求硬件每 GB 的互联带宽能覆盖 6.1 TFLOPS/s 的算力，华为升腾 950 系列芯片的算通比与模型实现了良好适配[8][9] 四、对国产算力生态的影响 * **采购逻辑转变**：国产芯片采购逻辑由战略驱动转向商业可行性驱动，预计将推动智谱、MiniMax 等模型厂商大规模采购国产芯片[1][4] * **投资优先级**：国产芯片的投资优先级将高于云服务公司[4] * **华为芯片销量目标**：华为计划 2026 年芯片销量超 100 万片实现翻倍，且 2026 年第一季度产能已被预订[1][11] * **华为市场策略**：华为旨在提升在互联网及头部模型厂商中的市场份额和销量，与 DeepSeek 的合作符合国家战略导向和自身商业目标[11] 五、华为芯片适配进展与性能 * **适配平台**：华为 950 系列芯片以及基于 910C 芯片的 Atlas A3 超节点平台均完成对 DeepSeek-V4 的适配[6] * **技术优化**：支持 FP8、MXFP8 和 MXFP4 数据格式，进行了稀疏访存优化，并利用 Vector 和 Cube 共享内存的设计降低推理时延[6][7] * **性能表现**：使用华为 950 超节点部署 DeepSeek-V4 Pro 模型，在 8K 上下文场景下，TPOT 达到 20 毫秒，单卡 decode 吞吐量达到 4,700 tps，远超 DeepSeek V3 模型使用 NVIDIA H800 芯片所达到的约 2000 tps 的水平[1][7] * **Base 模型性能**：适配 DeepSeek-V4 Base 模型时，在 8K 上下文场景下，TPOT 降低至 10 毫秒，单卡 decode 吞吐量为 1,600 tps，与 V3 模型在 H800 上优化后的性能数据基本持平[7] 六、其他国产芯片厂商适配情况 * **原生适配**：寒武纪和海光属于原生适配，通过与模型厂商直接合作开发算子实现对模型的支持[12] * **社区适配**：摩尔线程、沐曦、昆仑芯、平头哥、天枢、毕升等厂商通过联合“智源 FlagOS”社区的方式，对 DeepSeek-V4 的 Flash 版本模型进行了推理适配，并计划后续支持 V4 Pro 版本[12] * **响应速度**：大多在 DeepSeek-V4 发布当天或次日即完成了初步的推理适配工作[12] 七、对其他国产模型厂商的影响 * **技术路线关联**：智谱 AI、MiniMax 等厂商会快速跟进 DeepSeek 的创新技术架构以降低推理成本[1][13] * **历史借鉴**：DeepSeek 在 V3 版本提出 MLA 架构后，Kimi 的 K2.5 模型便借鉴并优化了此架构；DeepSeek 在 V3.2 版本提出 DSA 架构后，智谱 AI 在 GLM-5 中明确采用了“MoE+DSA”技术路线[13] * **总体影响**：DeepSeek 的技术创新和国产算力适配进展，将为长期面临算力瓶颈的其他国产模型厂商提供解决方案，利好多于冲击[13] 八、国产大模型市场整体表现 * **市场渗透**：国产模型凭借极致性价比成功“出海”，2026年2月在相关榜单占比一度达到 61%[1][14] * **竞争力核心**：当国产模型的代码或 Agent 能力达到海外顶尖模型上一代（如 Claude 4.5）的水平时，其价格仅为后者的 1/6 到 1/10[14] * **能力差距**：与全球最顶尖水平仍有差距，以编码能力为例大约相差 5 到 15 分，但综合考虑可用性和性价比并不落后[14] * **各厂商优势**：MiniMax 在中文场景适配更优，Kimi 的 K2.5 在长文本推理上具备明显优势，智谱 AI 的 GLM-5 在 Arena Code 排行榜上位居国产模型首位[14] 九、模型未达预期之处与未来规划 * **多模态能力**：市场曾预期 V4 版本会包含多模态能力，但此次发布并未集成，技术论文提到后续将整合，且可能更侧重于多模态理解[5] * **存算解耦架构**：未采用此前备受关注的存算解耦架构，但由于通过注意力机制优化已将成本降至很低，对 HBM 的解耦需求可能不迫切，未来仍有可能引入[5]