推理成本
搜索文档
云天励飞发布未来三年大算力芯片战略:目标把百万 Tokens 推理成本降低 100 倍以上
格隆汇· 2026-02-03 20:49
产业趋势:推理侧成为算力竞争新焦点 - 全球算力产业重心正加速向推理侧倾斜,行业竞争从“参数内卷”转向“效能为王”[3] - 谷歌在2025年4月发布第七代TPU “Ironwood”时,明确将其定位为“面向推理时代”的基石[3] - 2025年12月,英伟达与Groq达成非独占许可安排并吸纳其核心工程团队,被视为强化推理与实时工作负载能力的关键布局[3] - 单位推理成本与交付效率已成为AI规模化落地的最大门槛[3] 公司战略:聚焦大算力AI推理芯片与降本目标 - 公司核心战略是集中研发资源攻克大模型落地的“成本壁垒”,通过底层架构创新推动AI普惠化[1] - 未来三年目标是通过GPNPU架构等创新,力争实现百万Tokens推理成本降低100倍以上[1][10] - 公司确立了“1+4”架构:“1”指聚焦AI大算力推理芯片,“4”指四大事业部,旨在解决芯片从研发到市场推广的核心难题[8] - 计划打造区域级“千卡集群”,树立城市AI算力赋能的新标杆[8][9] 技术路线:GPNPU架构兼顾通用生态与极致能效 - 公司提出GPNPU技术路线,核心公式为“GPNPU = GPGPU + NPU + 3D堆叠存储”,旨在兼顾通用性与高效性[4] - 在通用生态层面,GPNPU架构致力于实现一行代码完成CUDA程序兼容,以降低生产系统迁移门槛[4] - 在推理能效层面,NPU能实现更高计算效率和能效比,专用化设计易转化为真实成本优势[4] - 针对“内存墙”瓶颈,公司正深度研发3D堆叠存储及更前沿互连技术,以提升带宽与能效,降低时延[5] 产品与工程优势:系统级优化与弹性扩展 - 公司采用“算力积木”架构,通过Chiplet扩展与互连思路,将标准计算单元模块化封装与组合,实现从边缘到大规模推理的弹性产品形态[5] - 公司拒绝单纯的“芯片参数竞赛”,主张将“模型怎么跑得更省”沉淀到架构里,围绕真实业务负载进行系统级优化,逐项击穿推理链路中的成本与时延瓶颈[7] - 未来将不遗余力投入大算力芯片DeepVerse的研发,围绕推理成本、时延与吞吐持续迭代,并按产品节奏梯度覆盖市场需求[10] - 路线图将聚焦长上下文预填充、低时延解码等关键推理阶段的系统优化,在真实负载下兑现“更便宜、更稳定、更易部署”的目标[10] 核心竞争力:五大要素构筑护城河 - 公司核心竞争力总结为技术、产能、生态、市场、资本五大关键要素,为未来三年战略落地提供体系化保障[8] - 针对供应链安全,公司是目前国内屈指可数手握充足国产产能保障的企业之一,为芯片大规模量产与交付提供了高确定性[8] - 四大事业部中,政企事业部作为基石,将战略重点转向推理设备和智算中心的建设[8]
GPU vs ASIC的推理成本对比
傅里叶的猫· 2026-01-26 22:42
文章核心观点 - AI芯片的竞争核心已从单纯性能比拼转向“性价比”的较量,特别是推理阶段的成本控制成为关键指标,直接影响AI应用的商业化落地和芯片厂商的市场份额[5][6] - 高盛通过构建“推理成本曲线”分析,量化了GPU与ASIC两类芯片的竞争态势,为理解技术路线优劣和行业竞争提供了清晰框架[5][6] - 短期内英伟达凭借其产品迭代速度、CUDA软件生态及全栈式创新维持领导地位,但中长期ASIC凭借定制化在成本控制上的潜力不容忽视,而网络、内存、封装三大相邻技术的创新将成为打破竞争格局的关键变量[10][12][15][17][18] 一、推理成本成AI芯片竞争关键 - AI芯片的竞争焦点是“性价比”,推理成本控制是重中之重,关系到AI应用商业化可行性和芯片厂商市场份额归属[6] - 高盛通过对比英伟达、AMD的商用GPU与谷歌TPU、亚马逊Trainium等定制化ASIC,构建了跨周期推理成本曲线,显示各类芯片成本均呈下降趋势,但不同厂商降幅和竞争态势差异显著[6] 二、头部玩家的竞争态势与差距 (一)谷歌/博通TPU:快速追赶的有力竞争者 - 从TPU v6到TPU v7,其每百万token的推理成本下降了约70%,目前成本与英伟达旗舰GB200 NVL72相当甚至略有优势[9] - 谷歌已将TPU广泛用于内部工作负载(包括Gemini大模型训练),且Anthropic与博通签订了价值210亿美元的TPU订单,预计2026年年中交付[9] - 对于具备定制化开发能力的企业,TPU正成为英伟达GPU之外的重要选择[9] (二)英伟达:优势稳固的行业领导者 - 英伟达维持领导地位依靠两大核心优势:一是“上市时间”优势,保持年度产品迭代(如GB300 NVL72已出货,VR200 NVL72计划2026年下半年交付);二是CUDA软件生态构建的深厚护城河,客户迁移成本高昂[10] - 公司在研发投入上远超竞争对手,并通过Mellanox业务在网络领域占据强势地位,近期推出的上下文内存存储控制器展现了内存技术创新能力,这些优势使其加速器市场领先地位短期内难以被撼动[12] (三)AMD与亚马逊Trainium:暂处落后的追赶者 - AMD和亚马逊Trainium目前在推理成本竞争中处于落后位置,报告估算其代际成本降幅仅约30%,绝对成本明显不及英伟达GPU和谷歌TPU[12] - 市场亮点在于:AMD计划在2026年下半年推出基于MI455X的Helios机架解决方案,据称其训练和推理性能将对标英伟达VR200,并有望实现约70%的推理成本下降;亚马逊Trainium 3&4据传将修复Trainium 2的性能短板,性能有望显著提升[12] - 后续关键在于能否兑现技术承诺,通过产品迭代缩小差距,并争取更多超大规模云客户和主流AI企业的认可[13] 三、技术趋势 - 随着计算芯片接近掩模限制,未来AI芯片性能提升和成本下降将主要依赖网络、内存和封装三大相邻技术的创新突破[15] - 网络技术方面,通过扩展以太网提升系统带宽,实现更多GPU协同工作成为行业共识[15] - 内存技术方面,HBM与NAND闪存集成持续深化,英伟达的上下文内存存储控制器是典型案例,有效提升了训练和推理效率[15] - 封装技术方面,台积电的CoWoS技术已实现两颗GPU芯片封装整合,英伟达计划2027年推出的Rubin-Ultra将集成四颗GPU芯片,同时CPO和机架级高密度集成技术也在快速发展[17] - 英伟达和博通在这些技术领域已占据先发优势:博通凭借领先的以太网网络和SERDES能力成为AI网络核心受益者;英伟达通过全栈式创新在硬件、软件、网络、内存等多环节形成协同优势[17] 四、四大场景下的行业演化路径 - 高盛勾勒了AI行业未来发展的四大潜在场景,不同场景下GPU与ASIC竞争格局将呈现不同特征,但ASIC在各类场景中均有望获得不同程度的发展[18] - **场景一:企业与消费级AI应用普及有限**。若AI仅在编码、后台流程自动化等少数场景落地,行业资本支出将趋于温和,应用场景的稳定性将加速ASIC的采用[18] - **场景二:消费级AI持续增长,企业级AI进展有限**。训练市场重要性凸显,英伟达有望维持训练领域主导地位;随着工作负载逐渐静态化并集中于超大规模云厂商,ASIC市场份额将逐步提升[18] - **场景三:消费级AI增长,企业级AI温和渗透**。英伟达能凭借训练市场优势巩固地位,企业级市场增量需求将带来更多收入机会,ASIC也将在特定场景中稳步拓展[18] - **场景四:消费级与企业级AI全面强劲增长**。这是最乐观场景,随着多媒体模型、物理AI等应用扩展,LLM提供商和初创企业有望盈利,训练强度保持高位。英伟达将充分受益于训练市场的垄断地位,其“上市时间”和CUDA生态护城河进一步强化;ASIC虽能受益于工作负载规模扩大,但市场份额增长速度相对平缓[18]
成本暴降70%!谷歌TPU强势追赶,性价比已追平英伟达
华尔街见闻· 2026-01-21 12:55
核心观点 - AI芯片行业竞争焦点正从追求峰值算力转向追求推理成本效率 市场关注点从“谁算得更快”转向“谁算得更便宜、更可持续” [1][2] - Google/Broadcom的TPU在推理成本上实现显著跃升 TPU v7相比v6单位token推理成本下降约70% 使其在绝对成本层面与英伟达GB200 NVL72基本持平甚至略具优势 [1] - 英伟达仍保持产品迭代节奏和生态优势 但AI芯片的评价体系已发生根本性变化 成本曲线斜率成为决定产业格局的关键变量 [2][5][7] AI芯片竞争评价标准切换 - 行业从训练算力主导转向推理成本效率主导 随着大模型进入部署与商业化阶段 推理负载远超训练 成本问题被迅速放大 [3] - 芯片性价比由系统层面效率共同塑造 包括算力密度、互联效率、内存带宽及能源消耗等多重因素 [3] - 基于推理成本曲线 Google/Broadcom TPU在成本维度已可与英伟达正面竞争 而AMD和亚马逊Trainium的单位推理成本仍明显高于前两者 对主流市场冲击有限 [3] TPU成本跃迁的驱动因素 - TPU v7大幅降本源于系统级优化能力 而非单一技术突破 未来推理成本下降将越来越依赖“计算相邻技术”进步 [4] - 系统优化包括更高带宽更低延迟的网络互联、HBM和存储方案持续集成、先进封装技术以及机架级解决方案在密度与能效上的提升 [4] - TPU在谷歌内部使用比例持续上升 并获外部客户采纳 典型案例为Anthropic向Broadcom下达的约210亿美元订单 相关产品预计2026年中开始交付 [4] 主要厂商竞争态势与投资含义 - 英伟达掌握“上市时间”优势 在TPU v7追平GB200 NVL72时 已推进至GB300 NVL72 并计划在2026年下半年交付VR200 NVL144 [5] - 高盛维持对英伟达与Broadcom的买入评级 认为两者最直接绑定AI资本开支中可持续部分 并将长期受益于网络、封装和系统级技术升级 [7] - 高盛将Broadcom 2026财年每股收益预期上调至10.87美元 较市场一致预期高出约6% 认为市场低估其在AI网络与定制计算领域的长期盈利能力 [7] - AMD基于MI455X的Helios机架方案预计在2026年末 有望在部分场景实现约70%的推理成本下降 存在后发优势可能性 [7] - 产业呈现分工图景 GPU继续主导训练与通用算力市场 定制ASIC在规模化、可预测的推理负载中不断渗透 英伟达的CUDA生态与系统级研发投入构成护城河 [7]
AI 霸主谷歌的反击:为什么说 4 万亿市值只是一个开始?
36氪· 2025-11-28 13:51
文章核心观点 - 谷歌凭借其自研TPU芯片带来的推理成本优势、Gemini 3模型的技术领先以及庞大的用户入口,在AI时代构建了强大的护城河和全栈主权,公司正迎来价值重估,股价突破300美元是其通往更高市值的新起点 [1][3][17] TPU算力优势与成本护城河 - AI算力需求重心正从训练转向推理,预计到2030年75%的AI计算需求将集中在推理层 [4] - 谷歌自研的TPU是专为神经网络设计的专用芯片,其最新一代TPU v7在每瓦性能上比上一代提升100%,在优化环境下推理性能比英伟达H100高出4倍 [5] - 凭借TPU的低成本优势,谷歌云业务可保持50%以上的毛利率,而依赖英伟达GPU的竞争对手毛利率可能被压缩至30% [6] - 推理成本是持续的运营开支,OpenAI预计2024年推理成本高达23亿美元,而谷歌TPU可带来显著的“推理套利”机会 [4][6] 模型与技术产品进展 - 谷歌发布的新模型Gemini 3展现出“原生多模态”能力,并能处理长上下文窗口,从聊天机器人进化为智能体 [7] - 端侧模型Nano Banana Pro专为移动设备优化,可通过谷歌庞大的分发渠道(如Android的30亿活跃设备)进行“零边际成本”的分发 [7][8][10] - 谷歌的模型优势正吸引其他公司使用其TPU,例如OpenAI已开始租赁谷歌TPU用于ChatGPT推理,Midjourney迁移至TPU v4后推理成本降低65% [7] 商业模式演进与广告价值 - AI正在将搜索从“寻找链接”变为“决策引擎”,生成式搜索体验能提供结构化答案,从而捕获“高意图”流量 [1][16] - 高意图流量有望大幅提升广告转化率,从而支撑更高的广告单价,类似Meta向移动端转型后广告单价提升的逻辑 [14][16] - 即使AI对传统搜索构成挑战,谷歌的搜索业务仍是一台每年产生数千亿自由现金流的强大引擎 [13] 市场地位与竞争优势 - 谷歌是唯一一家集齐“最强模型、最强算力、最大入口”并实现垂直整合的公司,拥有“全栈主权” [2][17] - 公司拥有庞大的用户入口,包括Android全球30亿活跃设备、Chrome浏览器及Search搜索等 [8] - 与微软+OpenAI的强强联合或Meta的开源策略相比,谷歌将芯片、模型、入口和资金四层能力完美内化,优势独特 [17] 财务与估值视角 - 公司当前市盈率约为27倍,在AI概念股中具备估值吸引力,下行风险有限而上行空间巨大 [11][13] - 谷歌持续利用现金储备进行股份回购,直接提升每股收益,为股东提供确定性回报 [11] - 巴菲特旗下伯克希尔·哈撒韦大举建仓谷歌,为公司的投资价值提供了背书 [3][11]
华尔街这是“约好了一起唱空”?巴克莱:现有AI算力似乎足以满足需求
硬AI· 2025-03-27 10:52
算力供需分析 - 2025年全球AI算力可支持15-220亿个AI Agent,足以满足欧美1亿多白领和10亿企业软件许可证需求 [3][4] - 2025年全球将有1570万个AI加速器在线,其中40%(630万个)用于推理,50%推理算力(310万个)专用于Agent/聊天机器人 [4] - 现有H100等效安装基数为1570万颗,其中60%(940万颗)用于训练,40%(630万颗)用于推理,50%推理芯片(310万颗)分配给Agent服务 [5] - 使用高效模型(如DeepSeek R1)可使行业容量提升15倍,企业正转向开源模型(如Mistral)降低成本 [6][11] - 表面算力充足但存在结构性缺口,需更多专用推理芯片和训练GPU转推理用途 [13] 市场机会与竞争格局 - AI Agent市场增长潜力巨大,低推理成本和开源模型是盈利关键 [8][9] - 高效推理成本结构和专注小型高效模型的公司更具竞争优势 [13] - 超级Agent产品(如GPT-5)单月消耗3560万Token,日查询44次,远超普通Agent的2.6次 [18] 模型经济效益对比 - OpenAI o1模型Agent年成本2400美元,DeepSeek R1仅88美元,后者用户容量是前者15倍 [15] - Agent单次查询生成1万Token(传统聊天机器人400个),推理成本增加25倍 [15] - 不同模型参数差异显著:GPT-5参数1.5万亿(活跃33%),DeepSeek R1参数671亿(活跃6%) [5] 技术发展趋势 - 行业需从基准测试转向实用Agent部署,关注单位经济学 [2][13] - 更便宜/小型高效模型(如DeepSeek风格)是未来需求方向 [13]