系统性工程突破

搜索文档
华为芯片,让英伟达黄教主坐不住了
21世纪经济报道· 2025-07-07 16:56
核心观点 - 华为昇腾CloudMatrix 384超节点在部分性能上超越英伟达GB200机柜,整体计算能力达后者的1.6倍[1][13] - 昇腾通过集群化设计弥补单芯片性能差距,实现从"备胎"到"主力"的转变,成功训练出千亿参数大模型[3][6][32] - 昇腾在算力利用率(MFU)上达到全球一流水平,稠密模型MFU超50%,MoE模型达41%-45%[9][10] - 昇腾384超节点采用光互联等系统性工程突破,实现384芯片高效协同,技术路径与英伟达差异化[16][21][29] 技术性能对比 - 单芯片性能为英伟达Blackwell的三分之一,但384超节点通过5倍芯片数量实现系统算力反超[13] - 推理性能对标英伟达H100,在DeepSeek-R1模型测试中算力利用率获全场最佳[11] - 英伟达GB200机柜仅集成72块GPU(下一代144块),华为突破384芯片互联技术[19][20] 技术路径创新 - 采用全对等互联架构与光缆连接,传输效率优于英伟达NVLink铜缆方案[27][29] - 结合鲲鹏CPU与昇腾NPU协同优化,实现"数学补物理"的系统级创新[24][32] - 自研CANN软件栈替代CUDA生态,支持分钟级故障恢复等工程优化[32] 行业竞争格局 - 国内AI芯片形成三大派系:科技巨头(华为/百度/阿里)、纯芯片厂商(寒武纪/燧原等)、细分领域企业(地平线等)[36] - 英伟达仍保持3nm工艺领先优势,CUDA生态历史积淀深厚[33][34] - 美国制裁背景下,昇腾在中国市场加速替代英伟达H20受限产品[36][37] 发展前景 - 华为通过"面积换性能"策略开辟中国特色技术曲线,实现弯道超车[38][39] - 昇腾已验证国产芯片训练千亿参数模型能力,标志国产算力进入实用阶段[6][40]
华为芯片,究竟有多牛(下)
21世纪经济报道· 2025-07-07 11:18
0:00 21世纪经济报道记者倪雨晴 深圳报道 华为昇腾是怎么做到和英伟达"掰手腕"的? 技术拆解 要理解这个问题,我们得先来认识昇腾的最强战力,"CloudMatrix 384 超节点"这个大家伙。这就是它 的外观(画面:384的结构图),它其实就是一个巨大的芯片集合,这最核心的384张昇腾910芯片,外 加192颗鲲鹏CPU,通通塞进16个机柜,然后用光缆、光模块联接起来,构成一个"超节点"。 你可以把它想象成一支超级"AI方阵":虽然单个士兵不如对手,但整体配合、纪律、调度都非常出色。 最终打起仗来,不一定会输。 听起来是不是有点像"芯片大拼盘"?但是,要把384块芯片联接在一起,像一台机器一样高效工作、协 同配合,这可不简单。 你可能不知道,英伟达目前GB200的机柜,只塞了72块GPU,下一代是144块GPU, 这个"大力出奇迹"的背后,是通信、光学、热学、基础软件等多个领域的老底子,一起发力的结果。 核心突破点包括: 听上去有点技术?咱们展开说说一项很关键的互联技术。 在计算集群里,无论是 CPU、GPU 还是 NPU,最终都需要高效的联接起来,才能交换传输数据。 英伟达有独家的NVLink互联技 ...