文章核心观点 - AI芯片的竞争核心已从单纯性能比拼转向“性价比”的较量,特别是推理阶段的成本控制成为关键指标,直接影响AI应用的商业化落地和芯片厂商的市场份额[5][6] - 高盛通过构建“推理成本曲线”分析,量化了GPU与ASIC两类芯片的竞争态势,为理解技术路线优劣和行业竞争提供了清晰框架[5][6] - 短期内英伟达凭借其产品迭代速度、CUDA软件生态及全栈式创新维持领导地位,但中长期ASIC凭借定制化在成本控制上的潜力不容忽视,而网络、内存、封装三大相邻技术的创新将成为打破竞争格局的关键变量[10][12][15][17][18] 一、推理成本成AI芯片竞争关键 - AI芯片的竞争焦点是“性价比”,推理成本控制是重中之重,关系到AI应用商业化可行性和芯片厂商市场份额归属[6] - 高盛通过对比英伟达、AMD的商用GPU与谷歌TPU、亚马逊Trainium等定制化ASIC,构建了跨周期推理成本曲线,显示各类芯片成本均呈下降趋势,但不同厂商降幅和竞争态势差异显著[6] 二、头部玩家的竞争态势与差距 (一)谷歌/博通TPU:快速追赶的有力竞争者 - 从TPU v6到TPU v7,其每百万token的推理成本下降了约70%,目前成本与英伟达旗舰GB200 NVL72相当甚至略有优势[9] - 谷歌已将TPU广泛用于内部工作负载(包括Gemini大模型训练),且Anthropic与博通签订了价值210亿美元的TPU订单,预计2026年年中交付[9] - 对于具备定制化开发能力的企业,TPU正成为英伟达GPU之外的重要选择[9] (二)英伟达:优势稳固的行业领导者 - 英伟达维持领导地位依靠两大核心优势:一是“上市时间”优势,保持年度产品迭代(如GB300 NVL72已出货,VR200 NVL72计划2026年下半年交付);二是CUDA软件生态构建的深厚护城河,客户迁移成本高昂[10] - 公司在研发投入上远超竞争对手,并通过Mellanox业务在网络领域占据强势地位,近期推出的上下文内存存储控制器展现了内存技术创新能力,这些优势使其加速器市场领先地位短期内难以被撼动[12] (三)AMD与亚马逊Trainium:暂处落后的追赶者 - AMD和亚马逊Trainium目前在推理成本竞争中处于落后位置,报告估算其代际成本降幅仅约30%,绝对成本明显不及英伟达GPU和谷歌TPU[12] - 市场亮点在于:AMD计划在2026年下半年推出基于MI455X的Helios机架解决方案,据称其训练和推理性能将对标英伟达VR200,并有望实现约70%的推理成本下降;亚马逊Trainium 3&4据传将修复Trainium 2的性能短板,性能有望显著提升[12] - 后续关键在于能否兑现技术承诺,通过产品迭代缩小差距,并争取更多超大规模云客户和主流AI企业的认可[13] 三、技术趋势 - 随着计算芯片接近掩模限制,未来AI芯片性能提升和成本下降将主要依赖网络、内存和封装三大相邻技术的创新突破[15] - 网络技术方面,通过扩展以太网提升系统带宽,实现更多GPU协同工作成为行业共识[15] - 内存技术方面,HBM与NAND闪存集成持续深化,英伟达的上下文内存存储控制器是典型案例,有效提升了训练和推理效率[15] - 封装技术方面,台积电的CoWoS技术已实现两颗GPU芯片封装整合,英伟达计划2027年推出的Rubin-Ultra将集成四颗GPU芯片,同时CPO和机架级高密度集成技术也在快速发展[17] - 英伟达和博通在这些技术领域已占据先发优势:博通凭借领先的以太网网络和SERDES能力成为AI网络核心受益者;英伟达通过全栈式创新在硬件、软件、网络、内存等多环节形成协同优势[17] 四、四大场景下的行业演化路径 - 高盛勾勒了AI行业未来发展的四大潜在场景,不同场景下GPU与ASIC竞争格局将呈现不同特征,但ASIC在各类场景中均有望获得不同程度的发展[18] - 场景一:企业与消费级AI应用普及有限。若AI仅在编码、后台流程自动化等少数场景落地,行业资本支出将趋于温和,应用场景的稳定性将加速ASIC的采用[18] - 场景二:消费级AI持续增长,企业级AI进展有限。训练市场重要性凸显,英伟达有望维持训练领域主导地位;随着工作负载逐渐静态化并集中于超大规模云厂商,ASIC市场份额将逐步提升[18] - 场景三:消费级AI增长,企业级AI温和渗透。英伟达能凭借训练市场优势巩固地位,企业级市场增量需求将带来更多收入机会,ASIC也将在特定场景中稳步拓展[18] - 场景四:消费级与企业级AI全面强劲增长。这是最乐观场景,随着多媒体模型、物理AI等应用扩展,LLM提供商和初创企业有望盈利,训练强度保持高位。英伟达将充分受益于训练市场的垄断地位,其“上市时间”和CUDA生态护城河进一步强化;ASIC虽能受益于工作负载规模扩大,但市场份额增长速度相对平缓[18]
GPU vs ASIC的推理成本对比