Workflow
Google TPU
icon
搜索文档
GB200出货量上修,但NVL72目前尚未大规模训练
傅里叶的猫· 2025-08-20 19:32
GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万,其中Q3预计出货1.16万,Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动,鸿海预计Q3 AI机架出货量环比增长300%,全年出货量预估达1.95万,占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年,下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海>纬创>广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元,超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元,超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元,GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元,H100为3.04美元,差异主要源于GB200芯片功耗更高(1200W vs 700W) [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本(TCO)为H100的1.6倍,需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100,但7月达到H100的1.5倍,预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍,12月预测BF16性能比H100好4.7倍,MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元(BF16),预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%,FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元,300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误,背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天,低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作,未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度,公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发,加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键,GB200 NVL72有潜力但可靠性是瓶颈,预测年底将主导市场 [37]
花旗:Dell‘Oro Q2 2025 数据中心资本支出报告要点
花旗· 2025-06-23 10:09
报告行业投资评级 未提及 报告的核心观点 报告总结了Dell'Oro Group第一季度数据中心资本支出报告的要点,指出市场因服务器支出加速而同比增长超50%,AI训练是投资重点,多家公司有相关投资和建设计划,预计2025年资本支出呈增长态势 [1][2][8] 根据相关目录分别进行总结 市场整体情况 - 第一季度市场同比增长超50%,达到1340亿美元,由服务器支出加速推动,服务器占数据中心资本支出超50%且增速高于通用基础设施 [1] - 通用基础设施略有增长,关税豁免组件影响有限,系统供应商和超大规模云服务提供商增加组件库存采购以降低关税风险,部分组件因需求增加价格上涨 [1] 主要云服务提供商情况 - 11家最大的云服务提供商占市场约60%,前四大美国云服务提供商同比增长73%,预计2025财年增长39% [2] - AI训练是数据中心投资的主要焦点,前四大云服务提供商预计2025年部署超500万台加速器,Blackwell及相关基础设施预计占AI基础设施投资的大部分 [2] - 2025年定制加速器预计达200万台 [2] 各公司具体情况 - MSFT Maia平台若解决早期技术问题,将于2025年晚些时候批量部署;AMZN、GOOGL、META预计通用服务器数量两位数增长,AMZN和GOOGL因云服务需求增加,META因新建数据中心 [3] - MSFT将在11个地区推出新数据中心,第一季度取消数据中心项目并非缩减资本支出,而是对AI和非AI容量进行战略调整以适应需求变化 [3] - META未来2 - 4年将在14个地区开展业务;AAPL仍采用混合资本支出策略,据传2026年将开发定制AI训练芯片“Baltra” [4] - ORCL预计2025年资本支出两位数增长,未来12 - 18个月将在7个地区新建数据中心,4年1000亿美元计划用于Stargate(主要是NVDA GPU) [4] - CoreWeave计划2025年支出超200亿美元 [4] 企业部门情况 - 企业部门第一季度同比增长21%,服务器更新周期推动支出,但关税和宏观因素可能产生负面影响;政府对主权和私有AI解决方案的关注度增加;Blackwell缺乏现成的液冷设备以及NVDA的1年产品周期被视为潜在风险;高成本和不确定性可能导致更多公共云解决方案 [7] 2025年预测情况 - 上调2025年增长预期至30%,前四大云服务提供商宣布提高资本支出计划,为多年资本支出扩张周期奠定基础,可能提高支出水平以应对潜在的关税相关成本增加 [8] - 前四大云服务提供商的支出增速将从2024年放缓,但多年AI投资周期强劲 [9] - Dell'Oro预测2025年高端加速器出货量为500万台,对应高端加速服务器资本支出为2050亿美元,占数据中心总资本支出的34%,不包括支持网络或物理基础设施 [9]
为什么定义2000 TOPS + VLA + VLM为L3 级算力?
自动驾驶之心· 2025-06-20 22:06
规模法则在自动驾驶中的应用 - 小鹏汽车在CVPR 2025论文中验证规模法则(Scaling Laws)在自动驾驶领域持续生效,核心发现是模型性能与参数规模、数据规模、计算量之间存在幂律关系 [4] - 在10亿(1B)、30亿、70亿直至720亿(72B)参数的VLA模型上验证了"参数规模越大模型能力越强"的规律 [6] - 确立了"海量高质量数据+大模型驱动"的自动驾驶能力跃升路径,VLA模型在VLM基础上增加了决策和行动能力 [6] 自动驾驶算力需求分级 - 从L2到L3级别算力需求呈指数级增长,L2级需80-300TOPS,L3级跃升至千TOPS级别 [8] - L3级需处理复杂城市道路场景,包括多样化交通参与者、动态环境条件等,需大规模神经网络实时推理 [8] - 小鹏提出2000TOPS+VLA+VLM作为L3级自动驾驶算力新标准 [6][8] VLA+VLM架构技术细节 - VLA架构以大语言模型为骨干,集成视觉理解、链式推理和动作生成能力 [10] - 视觉处理模块需数百TOPS算力处理多传感器数据融合 [10] - 语言理解模块在复杂交通场景语义理解时消耗大量计算资源 [10] - 动作规划模块涉及路径规划、行为预测等计算密集型任务 [10] 车载算力与数据中心算力对比 - 车载算力注重实时性与功耗平衡,需在有限空间和功耗下实现高效计算 [12] - 数据中心算力用于离线训练,能力是车载系统的数十至数百倍,可处理海量历史数据 [15] - 车载芯片如NVIDIA Orin、华为昇腾追求高能效比(TOPS/Watt) [12] 行业竞争格局与技术趋势 - 华为昇腾芯片系统算力达400TOPS,蔚来ET7搭载英伟达Orin平台(254TOPS) [17] - 英伟达下一代Thor芯片采用4nm工艺,基础版1000TOPS,增强版2000TOPS [20] - 小鹏G7采用三片自研图灵AI芯片,等效9颗英伟达Orin-X芯片 [20] - ADAS芯片市场份额:英伟达36%(年出货150万片)、特斯拉28%、华为11%、Mobileye 9%、地平线8% [20]
摩根士丹利:全球科技-AI 供应链ASIC动态 -Trainium 与 TPU
摩根· 2025-06-19 17:46
报告行业投资评级 - 行业评级为In-Line,即分析师预计其行业覆盖范围在未来12 - 18个月的表现将与相关广泛市场基准保持一致 [8] 报告的核心观点 - 英伟达在GPU领域仍是美国半导体行业首选,但AI ASIC供应链存在投资机会,重申对下游系统和上游半导体部分公司的买入评级 [1][7] - 全球半导体行业市场规模2030年或达1万亿美元,AI半导体是主要增长驱动力,预计AI半导体市场规模届时达4800亿美元,云AI ASIC市场或增长至500亿美元 [21] - 大型云服务提供商有能力持续投资AI数据中心,预计2025年美国前四大超大规模企业运营现金流达5500亿美元,折旧占总费用比例上升,平均AI资本支出/息税折旧摊销前利润约为50% [58][59] 根据相关目录分别进行总结 识别AI ASIC供应链潜在机会 - 上游半导体中,台积电、爱德万测试、京元电子和日月光是关键代表;AWS Trainium 2由力成科技子公司测试,Trainium 3测试预计转至京元电子,测试解决方案由爱德万测试和泰瑞达竞争 [10] - 全球ASIC关键买入评级公司包括下游系统硬件的亚旭电子、纬颖科技、 Bizlink和金器工业,以及上游半导体的台积电、博通、阿尔卑斯、联发科、爱德万测试、京元电子、超微半导体和日月光 [11] 英伟达GPU竞争下的AI ASIC设计活动 - AWS Trainium方面,阿尔卑斯2月完成Trainium 3设计流片,5月晶圆产出,有较高机会赢得2nm Trainium 4;阿斯泰拉实验室和阿尔卑斯在连接芯片设计上合作,有助于其竞争下一代XPU ASIC项目 [3][7] - Google TPU方面,铁杉(TPU v7p)2025年上半年量产,博通可能流片另一款3nm TPU(可能是v7e),部分芯片产出在2025年底;联发科可能在8月中旬流片3nm TPU(可能是v8p),2026年下半年量产 [4][7] - Meta MTIA方面,7月或有MTIAv3初步销量预测,台湾供应链考虑为MTIAv4采用更大封装用于多个计算芯片 [5] 全球AI ASIC市场规模分析 - 全球半导体行业市场规模2030年或达1万亿美元,AI半导体是主要增长驱动力,预计AI半导体市场规模达4800亿美元,其中云AI半导体3400亿美元,边缘AI半导体1200亿美元,云AI ASIC市场或增长至500亿美元 [21] - 2025年AI服务器总可寻址市场约1990亿美元,英伟达CEO预计2028年全球云资本支出达1万亿美元,这是云AI半导体的关键潜在市场 [26] AI芯片供应指标:台积电CoWoS分配假设 - 供应链服务器机架产出逐渐改善,预计台积电2025年Blackwell芯片产出(按CoWoS - L产能计算)与AI资本支出衡量的“需求”更匹配,但在产品周期前几个季度芯片产出会超过NVL72服务器机架组装,产生芯片库存 [34] - 维持2025年台积电39万片CoWoS - L的预测,预计2026年云AI半导体同比增长31%,假设下游原始设备制造商在2026年上半年消化芯片产出,年底CoWoS估计为9万片/月 [35] 全球AI资本支出更新 - 现金流分析支持大型云服务提供商资本支出持续上升的预期,摩根士丹利预测2025年美国前四大超大规模企业运营现金流达5500亿美元,有能力持续投资AI数据中心 [58] - 预计折旧占数据中心客户总费用的比例将继续上升,2025年达到10 - 14%,2025年平均AI资本支出/息税折旧摊销前利润约为50% [59] AI GPU和ASIC租赁价格跟踪 - 英伟达4090和5090显卡零售价略有下降,但中国AI推理需求仍然强劲 [73] AI半导体 - 市盈率倍数、收入敞口、销售跟踪 - AI半导体市盈率倍数趋势显示,GP GPU(英伟达)、替代AI半导体和AI半导体推动者的市盈率倍数有所变化 [82] - AI芯片季度收入持续增加,英伟达和AMD的数据中心/高性能计算半导体收入呈上升趋势 [83][84] 关键特色报告 - 涵盖多篇关于AI供应链的报告,涉及服务器机架、订单情况、需求与供应、CoWoS预测等方面 [94][95] 关键上游AI供应链公司 - 台积电2026年晶圆价格上涨和强劲AI需求可能抵消外汇影响,评级为买入 [96] - 联发科TPU需求和进度应好于担忧,评级为买入,目标价维持在新台币1888元 [96][97] 联发科分析 - 预计联发科凭借天玑9400旗舰片上系统在高端智能手机市场获得份额,2025 - 2027年前景好于担忧,库存天数下降,表明水平健康 [110] - 考虑到联发科有很高可能性赢得2nm TPU项目,将其剩余收益模型中的中期增长率从8%提高到8.5%,目标价维持在新台币1888元 [97] - 因新台币近期大幅升值,下调2025和2026年营收预测6 - 7%,2027年营收预测下调3%,每股收益下调幅度大于营收 [100][101]
腾讯研究院AI速递 20250519
腾讯研究院· 2025-05-18 22:33
OpenAI Codex - OpenAI发布新版AI编程工具Codex,由codex-1模型驱动,能生成更清晰代码且自动迭代测试至通过 [1] - Codex运行于云端沙盒环境,可同时处理多项编程任务,支持与GitHub连接并预加载代码仓库 [1] - 该工具目前向ChatGPT Pro等付费用户开放,后续将实施速率限制,用户可购买额外积分获取更多使用权限 [1] 腾讯混元Image2.0 - 腾讯混元Image2.0实现毫秒级图像生成,用户输入提示词时即可看到实时变化,突破了传统5-10秒生成时间的限制 [2] - 新模型支持文生图和图生图两大功能,图生图模式下可选择"参考主体"或"参考轮廓",并可调节参考强度 [2] - 双画布联动功能支持实时预览和多图层融合,在复杂场景下可通过多次快速的调试达到理想效果 [2] Manus生图功能 - Manus推出图像生成功能,除单纯生图外,还能理解用户意图、规划解决方案,并知道如何调用各种工具完成任务 [3] - 该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务,新用户可获赠1000积分免费体验 [3] - 实测显示图像生成效果不错,但网站部署等复杂任务运行速度较慢,需等待数分钟至十几分钟不等 [3] Google LightLab - 谷歌推出LightLab项目,通过扩散模型实现单张图像的精确光源控制,可调节光源强度、颜色,并能插入虚拟光源 [4] - 研究团队通过结合真实照片对和合成渲染图像构建训练数据集,利用光的线性特性分离目标光源和环境光 [5] - 实验表明该技术在PSNR和SSIM指标上优于现有方法,能实现物理上合理的光照效果,但需要12小时训练时间和64个v4 TPU [5] Supermemory Infinite Chat API - Supermemory发布Infinite Chat API,作为应用程序和LLM间的透明代理,通过智能维护对话上下文来突破大模型2万Token的限制 [6] - 该API采用RAG技术处理溢出的上下文内容,声称可节省90%的Token消耗,且只需一行代码即可集成到现有应用 [6] - 定价方案包括每月20美元固定费用,每个对话线程前2万Token免费,超出部分按每百万Token 1美元计费 [6] Grok AI异常事件 - Grok AI助手出现异常,在回答各类问题时频繁插入南非"白人种族灭绝"相关内容,引发广泛争议 [7] - xAI官方解释是员工未经授权修改系统提示词导致,并随后在Github公开Grok提示词,承诺增加审查机制和组建监控团队 [7] - 事件暴露了当前AI系统过度依赖提示词的安全隐患,研究显示主流模型都可能通过特定提示技术被攻破,生成有害内容 [7] Windsurf SWE-1模型 - Windsurf发布自研AI软件工程模型系列SWE-1,强调针对整个软件工程流程优化,而非仅限于编码功能 [8] - 该公司被OpenAI以30亿美元收购后首次发布产品,表明从单纯开发应用向自研AI模型转型的战略方向 [8] - SWE-1在编程基准测试中与GPT-4.1等模型表现相当,但落后于Claude 3.7 Sonnet,公司承诺服务成本将低于Claude 3.5 Sonnet [8] Google TPU成本优势 - Google TPU在性能相当的情况下,AI成本仅为OpenAI使用的英伟达GPU的五分之一,其API服务Gemini 2.5 Pro的价格也比o3模型低4-8倍 [10] - Google采用开放策略打造AI代理市集,而OpenAI与微软深度整合提供一体化服务,代表AI即服务市场的两大方向 [10] - 苹果选择使用Google TPU而非英伟达GPU训练其AFM模型,这一决定可能影响更多企业探索英伟达GPU的替代方案 [10] Lovart设计理念 - Lovart创始人认为AI图像产品经历三个阶段:从单一内容生成(Midjourney等),到工作流工具(ComfyUI等),再到当前由AI规划执行的Agent阶段 [11] - Lovart产品设计遵循"还原设计最原始样子"理念,通过画布(桌子)和对话框实现AI与人的自然交互,目标是成为一个集设计师、导演、摄影师于一体的"创意团队" [11] - 在团队组建上,Lovart认为通用型产品经理将被AI取代,更重视能将垂直领域专业知识教给AI的设计师 [11] 大模型思考时间研究 - 分析了大模型"思考时间"的重要性,认为通过增加测试时计算(如思维链、暂停标记等),可以显著提升模型在复杂任务上的表现 [12] - 当前模型"思考"主要有两种策略:并行采样(同时生成多个输出)和序列修订(基于前一轮输出进行迭代修正),但在实践中需要平衡思考时间和计算成本 [12] - 研究发现通过强化学习优化思维链可能导致reward hacking问题,模型会在思维链中隐藏真实意图 [12]