Inference Cost
搜索文档
OpenAI与Anthropic毛利目标双双落空,非付费用户与算力成主要负担
华尔街见闻· 2026-02-25 23:47
核心观点 - AI行业两大头部企业OpenAI与Anthropic的盈利路径正面临严峻考验 毛利率目标未能达成 主要受推理成本超预期增长的拖累 引发外界对其商业模式可持续性及能否在本十年末实现60%以上毛利率目标的质疑[1] 财务表现与目标差距 - OpenAI去年毛利率从40%降至33% 低于其自身预测的46%[1] - Anthropic毛利率从2024年的负94%大幅改善 但预计2025年毛利率为40% 仍较此前目标低出10个百分点[1] - 两家公司目前均未面临融资困境 但投资者对其商业模式的可持续性正给予更多审视[1] 推理成本失控 - 推理成本是两家公司毛利率承压的核心原因 该成本指向云服务商支付的、用于驱动AI模型响应用户请求的费用[2] - OpenAI去年推理成本同比增长约四倍 达84亿美元 高于其去年夏天预测的66亿美元[2] - Anthropic方面 2025年推理成本预计将增长逾三倍至27亿美元 同样高于此前预测[2] - 成本上升发生在云计算租用价格整体下行、两家公司持续声称提升模型运行效率的背景下[2] 成本超支原因 - OpenAI服务需求超出预期 不得不以更高价格购买云服务商的按需服务器资源 云服务商对按需租用服务器通常收取高于预订价格的溢价[2] - OpenAI庞大的非付费用户群体是毛利率压力来源之一 每周活跃用户约达9.1亿 其中付费用户占比仅约5% 去年总推理成本中近半数(约39亿美元)用于支撑非付费用户[3] - 产品结构是另一大因素 视频生成工具Sora对服务器算力的消耗远高于文本类查询 其推理模型在计算答案时所需算力也高于传统大语言模型[3] - OpenAI曾允许用户在引入使用限制前自由体验高算力功能 例如GPT-4o模型在短期内消耗了大量计算资源[3] 效率改善与未来规划 - OpenAI在服务付费用户方面的效率已有明显提升 其针对付费用户的算力利润率在去年10月已升至约70% 高于去年底的约52%及2024年1月的约35%[4] - OpenAI计划通过广告、电商及订阅扩张来提升非付费用户的变现效率 今年1月已在全球范围内推出月费约5至8美元的广告支持版ChatGPT订阅服务[4] - OpenAI预计今年约66%的141亿美元推理成本将用于服务付费用户 到2030年 这一比例将升至约94% 届时推理成本总规模预计约达850亿美元 毛利率目标约为67%[4] - 如何在成本持续攀升的同时实现长期毛利率目标 仍是摆在OpenAI与Anthropic面前的核心挑战[4]
GPU跟ASIC的训练和推理成本对比
傅里叶的猫· 2025-07-10 23:10
芯片供应商及产品规划 - NVIDIA全球市场AI GPU产品线从A100到GB100覆盖2020至2027年,制程从7nm演进至3nm,HBM容量从80GB提升至1024GB [2] - NVIDIA中国市场特供版包括A800/H800/H20等型号,HBM容量最高96GB,部分型号采用GDDR6显存 [2] - AMD MI系列从MI100到MI400规划至2026年,HBM3e容量达288GB,MI400将采用HBM4技术 [2] - Intel AI GPU产品包括MAX系列和Gaudi ASIC,Habana 2采用HBM3e技术容量达288GB [2] - Google TPU v5e至v6采用5nm/3nm制程,HBM3e容量最高384GB [2] - AWS Tranium系列采用Marvell/Alchip设计,Tranium3 Ultra将使用3nm制程和HBM3e [2] 大模型训练成本分析 - 训练Llama-3 400B模型时,TPU v7成本显著低于GPU,呈现断档式优势 [7] - NVIDIA GPU中GB200超级芯片训练成本最低,H100成本最高,验证"买得越多省得越多"规律 [7] - Trainimium2训练成本异常高企,与迭代预期不符 [7] - 硬件成本占比最高的是GPU部分,电力成本占比相对较低 [5][7] 推理成本比较 - AI ASIC在推理场景成本优势显著,比GB200低10倍 [10] - GPU产品中高端型号推理成本反而更高,与训练成本趋势相反 [11] - TPU v5p/v6和Tranium2在推理场景展现最佳性价比 [10][11] 技术参数对比 - GB200超级芯片峰值算力达5000 TFLOPS,是H100的5倍 [12] - HBM3e技术成为2024年主流,NVIDIA/AMD/Intel均采用该内存方案 [2] - 能效比方面GB200达2.25 TFLOPS/Watt,优于H100的1.41 TFLOPS/Watt [12] - MI300X与H100算力接近(981 vs 990 TFLOPS),但能效低7% [12] 供应链动态 - B200芯片已进入期货阶段,国内可接样品订单 [13] - 主要设计合作伙伴包括Broadcom、Marvell和Alchip等厂商 [2] - 行业信息显示3nm制程将在2025-2026年大规模应用于AI芯片 [2][12]