Inference
搜索文档
被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
机器之心· 2025-11-30 09:30
强化学习后训练中的Rollout环节 - 2025年,强化学习已成为大语言模型后训练的核心技术路径,研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中,Rollout环节是影响训练效率和效果的关键因素,也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分:港科大和阿里团队的分析发现其占70%,字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略,从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑,但目标不同:推理追求单次生成的准确性与效率,而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果,劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现,在数学推理RL训练中,采用随机采样Rollout的模型,其轨迹与任务目标对齐度仅41%,即使训练步数达到优质轨迹组的2倍,在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现,未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境,本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象,这导致所有GPU需要等待最慢的请求,大量设备在等待期内处于空闲,产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式,通过扩展Rollout规模的方式让该环节更具计算与数据效率,能在更短时间内完成更高质量的训练,且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份,并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时,以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱,专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代,OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流,反而是阻碍模型智力涌现的最大绊脚石,“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]
Nvidia's AI Moat Is Deep. Can AMD, Google Break In?
Forbes· 2025-11-26 18:50
公司财务表现与市场预期 - 第三季度营收达到57亿美元,同比增长62% [2] - 当前股价交易于约38倍FY'25市盈率和25倍FY'26市盈率 [2] - 今年营收预计约为2150亿美元,明年有望突破3000亿美元 [2] - 利润率表现突出,净利率约50%,营业利润率约60%,毛利率高达70% [2] AI行业需求驱动力 - AI预算正在激增,企业将AI视为变革性的平台转换 [3] - 资本支出面临压力,投资者接受现金消耗 [3] - 每个超大规模云厂商都在加速建设包含1万至10万个GPU的"AI工厂" [3] - 高端芯片需求超过供应已持续两年以上 [4] 公司的竞争护城河 - 竞争优势在于系统而不仅仅是芯片,涉及极端的并行处理、超低延迟连接和稳定可扩展的软件 [5][6] - 提供"AI工厂"一体化解决方案,包括硅芯片、高性能GPU、NVLink/NVSwitch互连、网络和CUDA软件栈 [6] - 转换成本高昂,涉及数月工程努力和数千万甚至数亿美元成本,对超大规模厂商而言因停机造成收入损失成本更高 [7][8] 技术生态系统与客户粘性 - CUDA平台将底层GPU编程、数学库、模型优化工具和开发工作流整合成统一生态系统 [9] - 大多数AI框架通过CUDA路径实现最佳性能,在库、工具和开发者专业知识方面领先竞争对手超过十年 [9] - 早期在大学实验室的举措可能确保了CUDA融入AI研究人员的学术训练,加强了长期生态系统锁定 [11] 长期行业趋势与潜在挑战 - 长期来看,推理将主导大部分AI计算,经济性可能转向定制芯片 [12] - 超大规模客户如谷歌和亚马逊正在构建自己的专用芯片,开源替代方案将随时间推移变得更强大 [14] - 行业将逐渐从关注峰值性能转向关注成本效率,多供应商策略将不可避免 [14] - 如果利润率下降或竞争对手获得超预期的市场份额,可能导致估值重置 [15]
Nvidia's earnings are a bellwether moment, says Plexo Capital's Lo Toney
Youtube· 2025-11-20 02:59
英伟达业绩预期与市场信号 - 市场高度关注英伟达业绩,其表现被视为AI需求持续性的关键信号,业绩不仅需达到预期,更需超出预期,因为“达标”可能被市场视为“未达标” [1][2][3] - 市场希望听到AI需求没有放缓的表述,特别不希望听到“消化”这个词,因为该词意味着需求可能放缓,以便超大规模数据中心处理其现有承诺 [4] - 英伟达面临巨大压力,因其规模庞大且市场预期极高,很难再带来超出预期的惊喜,业绩超预期的难度将越来越大 [6][7] 对英伟达的看空观点与行业周期 - 有分析师认为英伟达股票将表现不佳,理由是可能出错的因素远多于利好的因素,公司面临诸多阻力 [6] - 该观点基于对半导体行业周期性的判断,认为当前可能正接近周期顶部,行业需要一段时间进行“消化”,这一情况可能在明年某个时间点出现 [8][9] - 尽管长期看好AI技术潜力,但认为其应用采纳过程不会一帆风顺,将会有起伏 [8] AI基础设施投资与商业模式演变 - 摩根士丹利估计未来五年AI基础设施支出需求约为3万亿美元,但其中约一半可能需通过债务融资,而非完全依靠企业自身现金流 [11][12] - Meta与Blue Owl的交易创建了一个特殊目的实体(SPV),将约300亿美元支出置于表外,这可能为未来的融资模式提供蓝图 [13] - 大型语言模型(LLMs)的货币化存在挑战,需要关注应用层,随着模型效率提升(例如通过投资Anthropic等公司),将推动进入下一个时代,重点包括模型训练、推理以及自主决策代理、虚拟助手等 [15][16]
Google Vs. Nvidia: Inside The AI Hardware Showdown
Forbes· 2025-11-19 20:55
谷歌资本支出激增 - 谷歌母公司Alphabet在2025年初的资本支出预期约为600亿美元 [2] - 2025年2月,公司给出的支出指引大幅提升至750亿美元,年中进一步增至850亿美元,10月份的最新预测已达到910-930亿美元,较年初预期高出近50% [3] - 2026年的资本支出预计将比2025年有更大幅度的增长 [3] 资本支出投向人工智能基础设施 - 激增的资本支出主要直接投向人工智能基础设施,包括服务器、存储、电力与冷却系统,以及大量用于支持搜索、广告、YouTube、Gemini和谷歌云的芯片 [4] - 谷歌是英伟达最大的直接采购商之一,在英伟达2026财年第二季度,匿名客户(通常指微软、谷歌、亚马逊)贡献了其总收入的39% [5] - 三大超大规模云厂商(亚马逊AWS、微软Azure、谷歌云)占据了全球云市场超过60%的份额,是英伟达的优质客户 [5] 支出增长与收入增长的潜在不匹配 - 谷歌在GPU上的支出增速可能远快于其云业务收入的增速 [6] - 这意味着公司对芯片的投入增长可能超过了这些芯片直接带来的收入增长,长期可能对现金流和投资回报率构成压力 [6] 谷歌的双轨芯片战略:依赖与自研并行 - 谷歌并未计划在短期内完全摆脱对英伟达的依赖 [7] - 公司采取双轨战略:利用英伟达GPU的灵活性,同时使用自研的张量处理单元(TPU)来追求极致的效率和成本控制 [8] - AI领域正从模型训练(高度依赖高性能GPU)转向推理(每天执行数十亿次),而TPU正是为推理任务量身定制 [8] TPU的战略优势与市场进展 - TPU内置矩阵乘法单元,专为AI依赖的重复数学计算设计,相比功能全面的GPU,TPU是专为谷歌规模推理优化的工具 [11] - 最新发布的Ironwood(v7)TPU比上一代Trillium(v6)快4倍以上,与v5p相比峰值算力提升10倍 [11] - TPU已在内部处理大部分工作负载,并正快速向外部扩展,例如AI公司Anthropic已承诺采购高达100万个TPU,价值数百亿美元 [12][16] - TPU的每代产品性能性价比提升2-3倍,并持续加速,其设计注重高内存带宽、低延迟和显著降低单次查询成本 [16] TPU战略对成本与议价能力的影响 - 随着TPU承担更多工作负载(包括内部和外部如Anthropic),谷歌在与英伟达的谈判中获得更强的议价能力 [13] - 每一项转向TPU的工作负载都意味着英伟达将失去这部分收入 [13] - TPU通常提供更优的每美元性能,这使谷歌在特定指标上具备定价优势,例如Gemini 2.5 Pro的输入令牌定价低于竞争对手 [16] - 该战略的核心是优化对英伟达的依赖,而非替代,旨在重新定义AI经济学、控制成本并保持对顶级芯片供应商的杠杆 [14][15] - TPU等于成本控制、效率提升和推理及内部任务边际效益改善,而英伟达则提供灵活性和与客户需求的对齐 [17]
AI Spending Is Shifting — And Broadcom, Marvell Are Positioned To Win
Benzinga· 2025-11-15 00:45
AI数据中心支出重心转移 - AI基础设施支出正从模型训练快速转向模型推理 预计到2027年推理将占增量计算支出的主要份额 2025至2026年已开始呈现此趋势 [2][3] - 推动因素包括蒸馏、量化、思维链和多步优化等技术使推理成本更低、效率更高 而训练周期呈现收益递减 [2] - 公司不再追求最大模型 而是寻求能够完成任务的最廉价模型 [3] 受益公司分析 - 博通因专注于为谷歌、亚马逊和Meta开发推理定制ASIC而成为主要受益者 在更小、更廉价、更高效模型需求下占据优势 [4] - 迈威尔科技受益于推理工作负载大量依赖以太网和PCIe 而非昂贵的面向训练的NVLink和InfiniBand结构 [5] - 天弘科技因行业转向白牌、OCP对齐硬件而定位良好 运营商寻求可从多个供应商采购的更廉价、标准化推理机架 [6] - 阿里斯塔网络继续锚定最高性能训练网络 但推理向以太网的广泛混合转变为未来更多网络受益者打开大门 [6] 行业驱动因素 - 电力限制推动转变 训练功耗比推理高5至10倍 许多数据中心电网容量无法支持大型训练集群全负荷运行 [7] - 推理在分布式服务器和边缘集群中扩展性更好 使其不仅更廉价且更易于部署 [7] - AI下一阶段重点是使AI更廉价、快速和易于运行 而非构建最大模型 [8]
Iron Mountain(IRM) - 2025 Q3 - Earnings Call Transcript
2025-11-05 22:32
财务数据和关键指标变化 - 第三季度营收创历史新高,达到18亿美元,同比增长13% [3][15] - 第三季度调整后EBITDA创历史新高,达到6.6亿美元,同比增长16%,超出此前指引1000万美元 [3][15] - 第三季度AFFO创历史新高,达到3.93亿美元,同比增长18% [3][15] - 第三季度AFFO每股为1.32美元,同比增长17% [15] - 调整后EBITDA利润率为37.6%,同比提升110个基点 [15] - 增量流经利润率达到47%,与上季度持平 [15] - 董事会批准将季度股息提高10%,这将是连续第四年增加股息,也是连续第三次提高10% [7][22] 各条业务线数据和关键指标变化 - 全球RIM业务收入达到创纪录的13.4亿美元,同比增长6%,有机增长5% [16] - RIM存储收入有机增长5%,服务收入有机增长4.7% [16][17] - 数据中心业务收入为2.04亿美元,同比增长33%,有机存储租金增长32% [18][19] - 数据中心业务调整后EBITDA为1.07亿美元,利润率达52.6%,同比提升900个基点 [19] - 资产生命周期管理业务收入为1.69亿美元,同比增长65%,有机增长36% [20] - ALM业务近期收购贡献了3000万美元收入,其中ACT Logistics在第三季度贡献不到200万美元 [21] 各个市场数据和关键指标变化 - 在印度收购的CRC公司贡献了600万美元收入,包括120万美元存储收入和74万立方英尺体积 [18] - 数据中心业务在第三季度租赁了13兆瓦,并在第四季度初租赁了整个芝加哥站点36兆瓦 [9][34] - 数据中心续约价格表现强劲,现金和GAAP基础下的续约价格涨幅分别为14%和19% [19] - 物理存储业务保持中个位数增长,预计2025年将贡献约5个百分点的综合增长 [5] 公司战略和发展方向和行业竞争 - 公司增长业务组合包括数据中心、数字解决方案和ALM,推动了本季度三分之二的收入增长,占综合增长的8个百分点 [5] - 增长业务组合占总收入的比例预计在2025年底将达到近30% [5] - 公司通过交叉销售成功扩展业务,例如为德国一家全球公司提供数据中心退役和再营销服务 [11][12] - 数字解决方案业务势头强劲,在10月底成功推出了Insight DXP 2.0平台 [7] - 公司服务的总可寻址市场高达1650亿美元 [14] 管理层对经营环境和未来前景的评论 - 数据中心市场需求非常强劲,超大规模客户重新聚焦于推理和云容量建设 [9][34] - 基于目前已签署的租约,数据中心业务在2026年有望实现超过25%的增长 [4] - 公司拥有450兆瓦的容量将在未来18-24个月内通电,相当于当前运营组合的规模 [10] - 对于第四季度,公司预计收入约为18亿美元,同比增长14%;调整后EBITDA约为6.9亿美元,同比增长14%;AFFO约为4.15亿美元,同比增长13% [23][24] - 公司重申了全年指引范围 [23] 其他重要信息 - 公司与美国财政部签订了一项新的长期数字化服务合同,为期五年,价值高达7.14亿美元 [8] - 在第三季度,该财政部合同确认了约200万美元收入,预计第四季度确认400万美元 [17] - 公司在9月收购了ACT Logistics,以加强在澳大利亚的ALM市场领导地位 [11] - 公司成功完成了12亿欧元的债务发行,固定票面利率为4.75%,于2034年到期 [22] - 第三季度增长性资本支出为4.72亿美元,经常性资本支出为4200万美元 [22] - 期末净租赁调整后杠杆率为5.0倍,符合预期 [22] 问答环节所有提问和回答 问题: 美国财政部新合同的收入确认计划 [26] - 该合同收入将线性确认,并随纳税人数量增加略有增长,具有季节性特点,预计在2026年春季出现高峰 [26] - 公司已开始提前建设能力,确保为税收季节做好准备 [26] 问题: ALM业务的量和价的影响 [29] - ALM业务预计今年收入约为6亿美元,增长主要由量驱动,特别是企业量 [30] - 部分组件价格有所上涨,但不同组件涨幅不一,公司使用当前价格视图进行第四季度规划 [31] 问题: 数据中心业务管道和需求展望 [33] - 观察到超大规模客户对推理和云建设的需求回升,管道深度显著增加 [34][35] - 未来24个月有450兆瓦容量将通电,其中未来18个月有250兆瓦 [40][41] 问题: 财政部合同金额范围的决定因素 [37] - 合同金额取决于业务量,公司已与财政部商定价格,具体取决于发送的表单数量 [37] 问题: 近期数据中心租赁活动和未来产能 [39] - 未来18个月有250兆瓦产能通电,随后6个月再有200兆瓦,总计450兆瓦 [40][41] - 这些资产位于伦敦、弗吉尼亚、马德里、迈阿密、阿姆斯特丹等一级市场,已有2.5亿美元收入的积压订单 [43] 问题: 远期资本支出目标 [45] - 公司专注于推理和云建设市场,而非大型语言模型园区建设 [46] - 随着预租赁积压订单的增加,数据中心资本支出预计将逐步上升,但属于高回报的预租赁投资 [47] 问题: 客户跨市场转移的原因和影响 [49] - 客户因负载转移而调整市场,公司以客户为中心协助调整,实现了双赢 [52][53] - 该客户在伦敦的站点尚未启用,因此调整是可行的,空出的伦敦站点有强劲的租赁兴趣 [55] 问题: RIM存储业务的量和价展望 [57] - 物理存储有机体积持续增长,预计未来仍保持积极态势,收入管理行动预计带来中个位数增长 [58] - 已克服Clutter消费者存储业务的不利影响,并考虑了汇率挑战 [58][59] 问题: 存储和服务毛利率的连续变化 [61] - 存储毛利率下降主要受数据中心电力成本影响,电力收入为传递性质,不产生增量利润 [62] - 服务毛利率下降主要受业务组合影响,ALM和数字业务增长较快但利润率较低,同时保留率提高减少了高利润的终止服务收入 [63]
Bernstein's Stacy Rasgon breaks down why he likes Qualcomm
Youtube· 2025-10-27 22:54
高通公司AI业务与投资价值 - 高通公司宣布推出新一代AI加速器部件,公司已销售AI 100加速器多年[1] - 分析师给予高通“跑赢大盘”评级,目标价为185美元[1] - 高通在AI领域存在大量期权价值,其AI服务器CPU业务在当前市场预期和模型中尚未被计入价值[2] - 公司股价当日上涨约2%,年内涨幅约为12%[4] - 在短时间内,股价涨幅已超过其全年涨幅的150%[5] AI推理市场格局与机会 - AI推理市场预计比训练市场更为分散,训练市场主要由英伟达主导[5] - 长期来看,推理市场的总潜在市场规模可能更大,为更多参与者提供了空间[6] - 在庞大的市场规模下,即使获得很小的市场份额也足以带来显著业务机会[6] - 高通有望从AI推理市场增长中受益[7] - 目前判断不同技术(如GPU与A6)的胜负为时过早,关键在于整体机会是否足够大[8][9] 英伟达竞争优势与定价动态 - 英伟达在AI推理市场预计仍将表现良好[8] - 英伟达通过持续提升性能来证明其定价能力,从Ampear到Hopper架构,价格翻倍但性能提升10倍[11] - 从Hopper到Blackwell架构,价格上涨约50%,但性能提升幅度在3倍至30倍之间[12] - 随着每一代产品性能提升,客户的总拥有成本不断优化,支持了英伟达的定价策略[12] - 公司目标在未来10年内将GPU性能提升百万倍,若能实现则无需过度担忧其利润率[13]
IBM, Groq Partner to Offer High-Speed Inference
Youtube· 2025-10-21 04:38
合作性质与市场渠道 - IBM将把Grok作为其市场推广渠道的一部分,通过其销售团队销售Grok的产品[1][2] - 此次合作包含收入分成模式,IBM将在其市场推广中分销Grok的产品[5] - 这种合作被描述为“花生酱和果冻”式的关系,结合了Grok自下而上的开发者基础(230万开发者)和IBM自上而下的深厚企业关系[19] 技术优势与性能表现 - 合作的核心价值主张是实现5倍的性能提升,同时成本仅为原来的20%[5][7] - Grok的技术能够显著加速AI推理过程,帮助客户更快地获得答案,改变呼叫中心或供应链的运营方式[3][7] - Grok具备多模型支持能力,任何模型在其LPU上运行都能获得即时性能提升[12] - 技术集成旨在实现无缝透明,用户只需通过兼容的API即可获得更快的速度,无需关注底层细节[9][10] 市场需求与客户影响 - 金融服务行业是早期采用者,但过去六个月市场趋势全面转向多模型[11] - AI存在成本问题,而此项合作有望突破此瓶颈,使AI的经济效益变得合理[7][8] - 客户需求强劲,部分初创公司及其他企业正以每周或每月10%、20%甚至30%的天文数字速率增长,并积极寻求算力容量[15] - IBM自身计划通过AI在今年年底前驱动45亿美元的生产力提升,这引发了客户关于如何实现类似效果的询问[8] 行业生态与合作伙伴策略 - IBM在AI领域采取开放合作的策略,除Grok外,还与Anthropic、Mistral、Llama等公司建立了合作伙伴关系[12] - 公司对与生态系统内的任何伙伴合作持开放态度,特别是在AI加速方面,但目前重点投入与Grok的合作伙伴关系[16] - 近期示例包括标普全球(S&P Global)已在Watson X Orchestrate上运行,表明公司在智能体(Agents)领域也与多家公司合作[17] 供应链与产能状况 - 全球AI算力供应持续紧张,这种状况预计至少将持续5到10年[13] - Grok的优势在于其供应链扩展速度远快于其他技术,使IBM能够比竞争对手更快地满足客户订单[13][14] - 供应限制是真实的,因此越早与IBM合作就能越早获得宝贵的算力容量[14]
Oracle to deploy 50,000 AMD chips
Youtube· 2025-10-15 00:17
甲骨文与AMD的芯片合作 - 甲骨文宣布计划使用5万块AMD芯片建设数据中心[1] - 该超级集群旨在帮助客户在明年下半年运行更大型、更复杂的AI模型[2] - 甲骨文高管认为AMD的软件堆栈非常关键且客户接受度会很高[3] AMD的市场竞争地位 - 此合作被视为对AMD的信任投票 AMD股价上涨而英伟达股价下跌[3][4] - 市场越来越将AMD视为推理领域可行的竞争者[4] - 此消息紧随上周OpenAI将持有AMD 10%股份的新闻[4] 甲骨文的战略投资与竞争 - 购买数十万块芯片对甲骨文而言是重大赌注[5] - 公司创始人拉里·埃里森预计将提供与OpenAI 3000亿美元交易的更多细节[5] - 该交易正从根本上改变甲骨文的投资方式以保持与微软、亚马逊和谷歌的竞争力[5] 甲骨文的云业务与财务 - 公司预计将推出一套新的云服务产品以提高其云计算平台的效率和速度[6] - 公司将在周四的分析师日公布如何为大规模芯片采购提供资金[6]
Prediction: These AI Chip Stocks Could Soar (Hint: It's Not Nvidia or Broadcom)
Yahoo Finance· 2025-09-21 03:05
文章核心观点 - 除英伟达和博通外 AMD和Marvell等芯片制造商在AI基础设施建设下一阶段同样具备重大发展机遇 [2][8] AMD市场定位 - AMD长期在GPU市场落后于英伟达 但存在抢占推理市场份额的机会 [3] - 推理芯片需求将随模型规模扩大和部署范围增加持续增长 [4] AMD技术优势 - ROCm软件平台显著改进 推理场景中价格和效率比绝对峰值性能更重要 [5] - 联合创立UALink联盟 提供NVLink的开放标准替代方案 可能打破英伟达多GPU系统垄断 [6] AMD市场表现 - 顶级AI公司中已有1家将大部分推理流量运行于AMD GPU 前10大AI运营商中7家使用其硬件 [4] - 上季度数据中心收入约30亿美元 显著低于英伟达的400亿美元 [7] 行业发展前景 - 推理市场规模预计最终将远超训练阶段 [7] - 客户若采用AMD硬件可降低总拥有成本且不牺牲性能 则有望从英伟达夺取市场份额 [5]