Workflow
训推一体
icon
搜索文档
华为百度接连“秀肌肉” 大厂自研AI芯片为何不再闷声?
南方都市报· 2025-11-25 23:04
行业战略转变 - 国产AI芯片公司过去几年保持低调,官网很少更新最新产品信息和参数 [1] - 近期华为、百度等大厂接连公开AI芯片迭代路线图,阿里平头哥芯片亮相央视,标志着行业从“闷声做事”转向高调沟通 [1] - 这一转变是“里程碑式的转折”,公司需要向客户呈现清晰产品路线图以抢占英伟达留下的市场,并让投资者看到依赖国产算力发展的可能性 [2] 华为昇腾芯片路线图 - 华为宣布2026至2028年将推出四款昇腾AI芯片:950系列(950PR、950DT)、960和970 [4] - 950系列采用P/D分离路线:950PR于2026年Q1推出,面向推理预填充阶段和推荐业务,内存容量128GB,内存访问带宽1.6TB/s,互联带宽2TB/s;950DT于2026年Q4推出,注重推理解码和训练场景,内存容量144GB,内存访问带宽4TB/s,互联带宽2TB/s [7][8] - 960芯片于2027年Q4推出,互联带宽2.2TB/s;970芯片于2028年Q4推出,互联带宽4TB/s [5] - 华为Atlas 950超节点于2026年Q4推出,基于8192张950DT芯片;Atlas 960超节点于2027年Q4推出,最大支持15488张昇腾960芯片 [9] - 华为发布Atlas 950和960 SuperCluster超节点集群,算力规模分别超过50万卡和达到百万卡 [9] 百度昆仑芯路线图 - 百度公布昆仑芯业务路线图:2026年初上市针对大规模推理场景的M100芯片;2027年初上市面向超大规模多模态模型训练和推理的M300芯片 [11] - 2026年上半年和下半年推出“天池256超节点”和“天池512超节点”,搭载昆仑芯P800芯片,最高支持256张卡和512张卡互联 [11] - 从2027年下半年开始陆续推出千卡和四千卡超节点,计划2029年上市新一代N系列芯片,2030年点亮百万卡单集群 [11] - 基于昆仑芯P800的64卡超节点,单卡功耗约400瓦,FP16精度总算力规模超20 PFlops,单卡算力约为英伟达A100 SXM版本的一半 [11] 技术竞争格局 - 国产AI芯片在工艺制程、单卡算力、单卡内存容量和带宽等维度均落后于英伟达,但可借助超节点组网实现性能超越 [3] - 华为采用“超节点+集群”方案应对AI算力需求,这是“用数学补物理”策略,规避芯片制造工艺限制 [3][14] - 华为Atlas 950超节点满配由160个机柜组成,占地面积1000平方米,使用自研“灵衢”互联协议 [15] - 华为CloudMatrix 384超节点搭载384颗昇腾910C芯片,芯片数量是英伟达NVL72系统的五倍,可弥补单芯片性能仅为英伟达GB200三分之一的不足,但功耗为NVL72系统的4.1倍 [16] 市场应用与挑战 - 国产AI芯片用于大模型训练难度高,华为昇腾几乎是唯一可用于大模型训练的芯片,但当前主打型号910C大部分应用仍是推理 [19] - 使用全国产算力训练模型代价更高,不仅芯片使用成本高,训练时间也更长,例如科大讯花额外两个月进行适配 [20] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比降至58% [20] - 国产推理芯片已可满足当前最先进模型的使用,一台8张卡的单机能提供约688G显存,可运行DeepSeek R1-671B等600G权重的模型 [21] - 推理芯片市场竞争碎片化,包括GPGPU玩家(如海光信息、沐曦)和ASIC厂商(如寒武纪、华为、阿里平头哥) [21]
马斯克确认砍掉自研训练芯片而转型训推一体,有何深意?
中国汽车报网· 2025-08-12 17:09
公司战略调整 - 特斯拉解散Dojo超级计算机团队 停止自主研发云端训练芯片 将Dojo功能集成到车端FSD芯片实现训推一体[2] - 战略转向从双轨并行到训推合一的架构重构 核心目的是降本增效[3] - 与三星电子签订价值22.7648万亿韩元(约165亿美元)的芯片代工协议 三星得州新工厂将专门生产特斯拉下一代AI6芯片[3][6] 技术架构变革 - 新研发的AI6芯片为首款真正意义上的训推一体芯片 集成原Dojo训练模块与车端推理引擎[6] - AI5作为过渡产品算力达2000TOPS 较HW4实现跨代提升 由台积电生产[6] - 训推一体架构使算法迭代周期缩短60%以上 网络布线成本与复杂度降低数个数量级[6] - 单芯片可同时满足训练与推理需求 单辆车算力硬件成本下降40% 云端超算部署成本下降55%[8] 项目背景与挑战 - Dojo项目2019年启动累计投入超50亿美元 推出7nm制程含500亿晶体管的D1芯片[7] - 2024年Dojo与HW团队消耗公司60%芯片研发预算 因技术路线差异导致协同效率低下[7] - Dojo数据中心建设严重滞后 较原计划延迟18个月 关键人才大量流失[4][7] - 自动驾驶研发费用同比增长45% 其中算力成本占比达32%[8] 竞争优势与效益 - 百万级存量车辆将变身移动数据中心 形成车云协同分布式训练集群[7] - 每年可减少数亿美元外部算力采购支出 利用真实路况数据实时优化算法[7] - 训推一体架构可使L4级自动驾驶系统迭代效率提升5倍[10] - 若FSD渗透率从35%提升至60% 预计可额外贡献5000亿美元市值[11] 行业影响 - 打破传统训练用GPU推理用ASIC的二分法 开启端云同构硬件新时代[10] - 预计将引发行业跟风 2028年训推一体芯片市场规模或达150亿美元[10] - 重新定义汽车产业估值逻辑 从硬件制造转向算力驱动的移动数据平台[11] - 英伟达Blackwell B200芯片算力较H200提升3倍 行业竞争加剧[9]