百度智能云公布两款自研AI芯片,昆仑芯比外界想象得更有野心
钛媒体APP·2025-11-17 11:14

AI产业结构分析 - AI产业价值分配呈倒金字塔结构,芯片层获取绝大部分价值,模型层价值可能不到芯片层的1/10,应用层价值又比模型层小一个数量级[1] - 当前产业结构被认为不健康且不可持续,因为芯片不直接产生价值,应用才是价值的直接创造者[1] - 在宏观和产业环境下,打破价值倒挂结构的最佳途径是将芯片层重新掌握在自己手中[1] 行业自研芯片趋势 - 英伟达的“芯片铁幕”促使全球科技公司启动自研芯片战略,海外厂商包括亚马逊、微软、谷歌及OpenAI,国内企业包括阿里、华为、腾讯[1] - 百度昆仑芯团队成立于2011年,早期参与AI计算产业,从FPGA加速逐步发展到自研芯片,2021年从百度集团拆分并着手定义面向大模型的新一代芯片如P800[1] 大模型对芯片产业的影响 - Transformer架构统一了模型框架,使输入输出均统一为Token,计算架构也随之统一,芯片厂商目标更明确,可实现极致性能并充分利用产业链供给能力以降低成本[4][5] - 大模型定向优化芯片变得相对容易,但技术应用无边界,未来AI产业发展方向不确定,Scaling Law推高算力能源基础设施成本,使得面向未来的芯片设计难度增加[5] 算力效率与规模挑战 - 大模型应用渗透导致人均每日Token消耗达数万甚至百万级,行业追求从算力卡中榨取更多tokens,直接关乎企业竞争力[5] - 通过降低计算精度(如从BF16到FP8、FP4)牺牲冗余精度可换取数倍算力提升[6] - 超节点系统成为大模型时代刚需,服务器内联数十至上百张卡,未来可能实现千节点互联,带来量级上的成本下降[6] - 万卡规模集群面临稳定性指数式下跌问题,98%稳定性在千卡规模可接受,但万卡规模下任何节点波动都会被放大成系统级故障,训练精度难以保障,验证周期长达2-3个月[6] 百度昆仑芯产品进展 - 百度发布两款自研AI芯片昆仑芯M100和M300,以及天池256和512超节点规划[2] - 昆仑芯已量产三代芯片,第一代部署于百度内部数据中心,第二代面向市场开放,第三代在大模型时代广泛应用于互联网、运营商、金融、能源等行业[8] - 百度内部绝大多数大模型推理任务由昆仑芯P800支持,基于P800的5000卡单一集群训练出领先多模态模型,该集群已扩展至万卡以上[8] - M100针对大规模推理场景优化,也是全能型芯片,MoE模型推理性能大幅提升,2026年初上市;M300定位高端,兼具强推理与训练能力,针对超大规模多模态模型优化,2027年初上市[8] - 昆仑芯软件栈高度兼容主流CUDA生态,从编程语法到深度学习框架均可无缝适配,客户覆盖电信运营商、能源、电力、金融等行业[8] 超节点技术方案 - 大模型训练和推理需多芯片协同工作,MoE模型导致卡间通信量急剧增加,需将几十张至上百张卡组成超节点,使其像“一颗超级芯片”紧密连接以提升通信效率[9] - 天池256超节点将256张P800置于同一节点内,相比32卡和64卡超节点,单实例卡间互联总带宽提升4倍,性能提升50%以上[9] - 天池256在主流大模型推理任务上,单卡吞吐比同等卡数P800集群提升超过3.5倍[9] - 天池512基于P800,卡数较天池256翻倍,卡间互联总带宽再翻一倍,单个节点可完成万亿参数模型训练,两款超节点分别于明年上下半年上市[10] - 百度基于昆仑芯M系列研发千卡级别超节点,计划从2027年下半年陆续推出千卡、四千卡超节点,未来5年每年推出新产品[10]