Inference Cost - 财报，业绩电话会，研报，新闻

Inference Cost

搜索文档

华尔街见闻· 2026-02-25 23:47

核心观点 - AI行业两大头部企业OpenAI与Anthropic的盈利路径正面临严峻考验毛利率目标未能达成主要受推理成本超预期增长的拖累引发外界对其商业模式可持续性及能否在本十年末实现60%以上毛利率目标的质疑[1] 财务表现与目标差距 - OpenAI去年毛利率从40%降至33% 低于其自身预测的46%[1] - Anthropic毛利率从2024年的负94%大幅改善但预计2025年毛利率为40% 仍较此前目标低出10个百分点[1] - 两家公司目前均未面临融资困境但投资者对其商业模式的可持续性正给予更多审视[1] 推理成本失控 - 推理成本是两家公司毛利率承压的核心原因该成本指向云服务商支付的、用于驱动AI模型响应用户请求的费用[2] - OpenAI去年推理成本同比增长约四倍达84亿美元高于其去年夏天预测的66亿美元[2] - Anthropic方面 2025年推理成本预计将增长逾三倍至27亿美元同样高于此前预测[2] - 成本上升发生在云计算租用价格整体下行、两家公司持续声称提升模型运行效率的背景下[2] 成本超支原因 - OpenAI服务需求超出预期不得不以更高价格购买云服务商的按需服务器资源云服务商对按需租用服务器通常收取高于预订价格的溢价[2] - OpenAI庞大的非付费用户群体是毛利率压力来源之一每周活跃用户约达9.1亿其中付费用户占比仅约5% 去年总推理成本中近半数（约39亿美元）用于支撑非付费用户[3] - 产品结构是另一大因素视频生成工具Sora对服务器算力的消耗远高于文本类查询其推理模型在计算答案时所需算力也高于传统大语言模型[3] - OpenAI曾允许用户在引入使用限制前自由体验高算力功能例如GPT-4o模型在短期内消耗了大量计算资源[3] 效率改善与未来规划 - OpenAI在服务付费用户方面的效率已有明显提升其针对付费用户的算力利润率在去年10月已升至约70% 高于去年底的约52%及2024年1月的约35%[4] - OpenAI计划通过广告、电商及订阅扩张来提升非付费用户的变现效率今年1月已在全球范围内推出月费约5至8美元的广告支持版ChatGPT订阅服务[4] - OpenAI预计今年约66%的141亿美元推理成本将用于服务付费用户到2030年这一比例将升至约94% 届时推理成本总规模预计约达850亿美元毛利率目标约为67%[4] - 如何在成本持续攀升的同时实现长期毛利率目标仍是摆在OpenAI与Anthropic面前的核心挑战[4]

Artificial Intelligence

Gross Margin

Inference Cost

Artificial Intelligence

ChatGPT

Sora

Artificial Intelligence

Gross Margin

Inference Cost

Artificial Intelligence

ChatGPT

Sora

GPU跟ASIC的训练和推理成本对比

傅里叶的猫· 2025-07-10 23:10

芯片供应商及产品规划 - NVIDIA全球市场AI GPU产品线从A100到GB100覆盖2020至2027年，制程从7nm演进至3nm，HBM容量从80GB提升至1024GB [2] - NVIDIA中国市场特供版包括A800/H800/H20等型号，HBM容量最高96GB，部分型号采用GDDR6显存 [2] - AMD MI系列从MI100到MI400规划至2026年，HBM3e容量达288GB，MI400将采用HBM4技术 [2] - Intel AI GPU产品包括MAX系列和Gaudi ASIC，Habana 2采用HBM3e技术容量达288GB [2] - Google TPU v5e至v6采用5nm/3nm制程，HBM3e容量最高384GB [2] - AWS Tranium系列采用Marvell/Alchip设计，Tranium3 Ultra将使用3nm制程和HBM3e [2] 大模型训练成本分析 - 训练Llama-3 400B模型时，TPU v7成本显著低于GPU，呈现断档式优势 [7] - NVIDIA GPU中GB200超级芯片训练成本最低，H100成本最高，验证"买得越多省得越多"规律 [7] - Trainimium2训练成本异常高企，与迭代预期不符 [7] - 硬件成本占比最高的是GPU部分，电力成本占比相对较低 [5][7] 推理成本比较 - AI ASIC在推理场景成本优势显著，比GB200低10倍 [10] - GPU产品中高端型号推理成本反而更高，与训练成本趋势相反 [11] - TPU v5p/v6和Tranium2在推理场景展现最佳性价比 [10][11] 技术参数对比 - GB200超级芯片峰值算力达5000 TFLOPS，是H100的5倍 [12] - HBM3e技术成为2024年主流，NVIDIA/AMD/Intel均采用该内存方案 [2] - 能效比方面GB200达2.25 TFLOPS/Watt，优于H100的1.41 TFLOPS/Watt [12] - MI300X与H100算力接近(981 vs 990 TFLOPS)，但能效低7% [12] 供应链动态 - B200芯片已进入期货阶段，国内可接样品订单 [13] - 主要设计合作伙伴包括Broadcom、Marvell和Alchip等厂商 [2] - 行业信息显示3nm制程将在2025-2026年大规模应用于AI芯片 [2][12]