文章核心观点 - AI产业竞争已从模型算法延伸至算力底层硬核博弈,专用集成电路正成为重塑全球AI格局、构筑竞争壁垒的核心抓手[46] - 专用集成电路的发展速度远超预期,已从单纯的产业趋势演变为AI巨头必炼的内功,甚至成为AI竞争的胜负手[6][7] - 在高速增长的算力需求背景下,英伟达图形处理器作为基石的作用仍不可替代,但其市场份额将逐渐被专用集成电路蚕食,长期将呈现二者共存态势[16][17] - 谷歌张量处理单元在技术和商业上的成功,为专用集成电路的发展提供了强心剂和示范效应,彻底打消了市场疑虑,并撕开了英伟达的垄断裂缝[10][24] - 国内外大型科技公司纷纷加速自研专用集成电路,以追求极致的总拥有成本、供应链安全和功耗控制,没有自研芯片的企业将在AI竞赛中失去话语权[32][34][46] ASIC趋势比预期还要猛 - AI投资规模驱动专用集成电路优势显现:AI军备竞赛导致资本开支巨大,头部厂商AI资本开支已逼近千亿美元,使性价比更高的专用集成电路变得至关重要[9] - 专用集成电路与图形处理器的核心差异:专用集成电路是针对特定算法和应用的定制化优化,具备更低的成本与功耗优势;而图形处理器是适配多场景的通用型选手[9] - 专用集成电路的经济性门槛已被跨越:当前2nm芯片流片成本达7亿美元,加上团队搭建费用3亿美元,自研门槛高达10亿美元,需要超100亿美元的下游市场规模覆盖成本[12] - 数据中心市场已具备经济性:数据中心AI芯片单颗价值高,一个大厂内部采购的AI芯片数量轻松超过100万颗,足以覆盖高昂成本;例如谷歌2023年自用张量处理单元超200万颗,按年20亿美元研发成本计算,单颗分摊成本仅几千美元[13] - 出货量与市场规模将快速扩张:据芯智讯援引DIGITIMES数据,专用集成电路出货量2027年将突破1000万颗,接近同期图形处理器1200万颗的水平;AI用专用集成电路有望快速成长为千亿美金赛道[13][14] - 产业链给出乐观预期:博通预计2027年大客户专用集成电路可服务市场将达600-900亿美元;Marvell预测2028年定制芯片将占数据中心加速计算市场25%的份额[14] GPU和ASIC之争继续 - 英伟达图形处理器的两大优势:一是算法生态,CUDA生态与开发者习惯形成强壁垒,在大模型训推中仍领先其他方案至少一年半;二是产业链优先支持,在代工产能和HBM供应上享有优先权[19][20][21][22] - 英伟达面临供应链瓶颈:谷歌张量处理单元在2026年上半年有超过50%的产能缺口导致难大规模交付、微软Maia 200也难产,都是由于产业链产能限制[22] - 专用集成电路的挑战与解决方案:生态上,谷歌张量处理单元在超大型模型部署场景中已有成本优势;互联标准上,UALink、Ultra Ethernet等开放标准正在崛起,有望打破英伟达垄断,在10万节点集群中,Ethernet架构相较英伟达InfiniBand,总拥有成本最高可节省20%[23] - 供应链瓶颈预计缓解:随着扩产,预计上游产能在2027年逐步放量,供应链瓶颈开始缓解;同时2027年训练与推理芯片资本开支占比将趋近50:50,给专用集成电路更大舞台[23] 谷歌TPU撕开英伟达垄断的裂缝 - 谷歌张量处理单元的技术优势:持续迭代,最新的TPU v7搭载Inter-Chip Interconnect技术,可支持最多9000个节点的超大规模集群;采用HBM3E内存,功耗与以太网成本更具优势,FP4精度下每PFLOPS每小时成本仅0.40美元[25] - 内部应用验证成功:谷歌Nano Banana等模型100%基于张量处理单元完成训练与推理,支撑内部核心功能,成本低于图形处理器,部分场景性能表现优异[26] - 成功拓展外部市场:Meta计划2026年租用并从2027年开始购买超100万颗、价值数十亿美元的TPU;OpenAI将部分推理工作负载迁移至TPU;Anthropic签署100万TPU订单;Apple采购TPU用于LLM训练[27] - 定价策略与市场预测:单颗张量处理单元芯片售价预计1—1.5万美元,定价瞄准AMD,意图通过低价挤压竞争对手;乐观测算,到2027年,张量处理单元可能抢占英伟达15%的训练市场份额;Semianalysis预测2027年谷歌张量处理单元合计出货量达到600万颗[29] - 渗透率预测:2027年推理场景占比将达50%,专用集成电路将承担其中50%的工作负载,对应专用集成电路在算力芯片中的渗透率超20%,而谷歌张量处理单元拿下其中一半份额难度不大[29] 来自EDA的产业链验证 - EDA行业增长核心转移:Synopsys和Cadence最新指引显示,未来EDA行业增长核心来自苹果、谷歌、特斯拉等“系统公司”,而不是第三方芯片设计厂[30] - 系统公司占比提升:这类系统性客户占当前EDA营收的45%左右,未来2-3年将超50%,验证了大厂自研芯片并通过外售摊薄成本的模式将加速推进[30][31] 谷歌示范效应下大厂纷纷豪赌自研ASIC - 成本与功耗符合第一性原理:到2030年AI耗电可能占美国用电的10%,降低单芯片功耗关键;图形处理器存在30-40%功能冗余导致功耗浪费,而专用集成电路可针对特定工作负载优化[33][34] - 性能指标对比:主流专用集成电路在算力性能上已基本对齐英伟达H系列图形处理器,但能效比优势突出;例如英伟达H100 FP16算力为990 TFLOPS,功耗700W;谷歌TPU V6e算力为918 TFLOPS,功耗仅383W[35] - 北美大厂加速布局:亚马逊Trainium2芯片支持的实例性价比相较GPU-based实例高出30-40%,2024年出货量年增率突破200%;Meta MTIA v2采用台积电5nm工艺,TDP仅90W;微软Maia目标定制专用集成电路相较英伟达件成本节省80%,能耗成本降低50%;OpenAI与博通达成100亿美元合作开发专属推理芯片;特斯拉计划2025年底推出下一代Dojo 2芯片[38][39] - 国内大厂芯片项目战略地位提升:在谷歌张量处理单元验证可行性、英伟达芯片受限的双重驱动下,专用集成电路已上升为核心战略[40] - 百度昆仑芯进展:拥有15年技术积累,兼容CUDA生态;2024年出货量6.9万片、营收20亿,2025年预计出货13万片、营收冲35亿;已进入中国移动、比亚迪、招商银行等供应链[41] - 阿里平头哥进展:核心产品PPU分为高端和低端款,2024-2025年合计出货估计30万张;低端款采用中芯国际12nm工艺,预计2026年Q1启动流片量产,出货50万颗;2026年PPU整体出货预计80万颗[42][44] - 其他国内厂商布局:字节跳动采取“外采低端芯片+推进海外研发+国内先进制程排队”策略;腾讯重启“紫霄”自研项目,以数倍薪酬挖角顶尖人才[44] - 国内大厂面临的挑战:主业盈利不如海外大厂,股东对芯片业务亏损不满,促使阿里百度分拆上市平衡投入;先进产能资源更加稀缺;配套AI芯片服务商如博通、Marvell因制裁难以为国内企业提供定制服务,国内相关企业在技术积累上有明显差距[45]
百芯大战