AI推理

搜索文档
博通管理层会议:AI推理需求激增,甚至超过当前产能,并未反映在当前预期内
华尔街见闻· 2025-07-10 16:46
博通最新管理层会议释放出清晰信号——AI推理需求不仅正在迅速放量,而且仍处于上升通道的早期,未来对市场规模和产能 配置的重估,可能带来利润的系统性上修。 据追风交易台,在摩根大通日前组织的一场投资者会议中,博通管理层透露,公司在AI推理领域正迎来超预期的需求增长,甚 至"超过当前产能",而这一趋势尚未被纳入此前对市场规模的预测,或为未来盈利带来上修空间。与此同时,非AI业务也开始 复苏,VMware持续放量,公司整体"多线开火"。 博通CEO Hock Tan与CFO Kirsten Spears表示,过去一年AI需求主要来自训练负载,尤其是"前沿模型"的训练。但最近两个月, 公司在AI推理方面的订单大幅上升。管理层指出,这波推理需求来自客户希望更快地变现其AI投资,"推理的市场容量,可能被 严重低估"。 AI推理需求超预期,有望推高市场规模预测上限 博通管理层表示,定制AI XPU芯片业务依然强劲,增长跑道清晰可见。过去9-12个月中,AI需求主要集中在前沿模型等训练工 作负载上。但在过去2个月里,随着客户努力将投资货币化,公司经历了推理需求的显著激增。管理层认为当前推理需求已超过 产能。 这一强劲的AI推 ...
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI前线· 2025-07-04 14:10
核心观点 - AI推理服务提供商在吞吐量和延迟之间存在基本权衡,高吞吐量通常伴随高延迟,低吞吐量则伴随低延迟[1] - 批处理大小是影响吞吐量和延迟的关键因素,大批次可提高GPU效率但增加延迟,小批次则相反[2] - 专家混合模型(如DeepSeek-V3)需要更大的批次大小才能保持GPU效率,导致更高的延迟[6] - 具有多层的大型模型需要足够大的批次以避免"管道气泡",这会显著影响吞吐量[8] - 注意力机制限制了批处理的灵活性,因为只能批量处理相同序列长度的token[9] 批处理推理机制 - GPU擅长执行大型矩阵乘法(GEMMs),批量处理多个token比逐个处理更高效[1] - 推理服务器通过将多个用户的请求堆叠成矩阵进行批量处理,显著提高GPU利用率[3] - 大批次处理减少了GPU命令开销和权重内存访问时间,这是小批次无法实现的优势[4] - 服务器设置"收集窗口"来决定批次大小,窗口时间从5毫秒到200毫秒不等[5] 专家混合模型特性 - 专家混合模型包含多个独立的前馈权重块,路由层选择子集处理每个token[6] - 这种架构导致需要执行大量小型矩阵乘法,GPU效率较低[6] - 大批次处理可确保每个专家获得足够工作量,否则吞吐量会急剧下降[12] - DeepSeek-V3作为专家混合模型,在个人使用场景效率低下,因为无法形成足够大的批次[12] 管道化与延迟问题 - 大型模型采用管道化处理,不同GPU负责不同层,需要保持连续token流[6] - "预热"和"排水"阶段导致GPU空闲,小批次会放大这种效率损失[7] - "管道气泡"发生在处理token数少于层数时,会严重影响吞吐量[8] - 消除管道气泡需要足够大的批次,这必然增加延迟[8] 注意力机制限制 - 注意力GEMMs只能批量处理相同形状的序列,限制了批处理的灵活性[9] - 解码过程中只能批量处理同一步骤的token,迫使采用短"tick"运行[9] - 不同用户的请求可以批量处理,但同一用户的token必须顺序处理[10] - 现代推理栈将注意力和FFN步骤合并成大GEMMs以提高效率[9] 行业实践观察 - OpenAI和Anthropic模型响应迅速,可能采用更高效架构或特殊优化技巧[12] - 连续批处理技术在实际中应用,但核心吞吐量-延迟权衡不变[12] - transformer模型可批量预填充长提示,这是递归模型无法实现的优势[12]
【大涨解读】算力:出货量可能超iPhone,英伟达新服务器蓄势待发,配套部件有望迎来数倍需求提升
选股宝· 2025-07-03 11:07
市场表现 - 算力板块持续活跃,服务器相关股票表现突出,工业富联上涨8.27%,华勤技术上涨5.32% [1][2] - 新亚电子涨停,涨幅达10.01%,换手率为9.69%,流通市值57.96亿 [2] - 工业富联流通市值达4549.51亿,华勤技术流通市值为468.12亿 [2] 行业动态 - 高盛上调基板式AI服务器预测 [3] - 英伟达GB200量产进入高峰,下一代AI服务器芯片GB300预计2025年下半年上市 [3] - GB300出货量可能超越苹果即将推出的iPhone,成为科技产业新焦点 [3] - 广达电脑负责英伟达AI服务器系统集成,GB300预计9月出货 [3] 机构预测 - 高性能AI服务器H200、B200等2025/26年出货预期上调至52.5万/52.7万台 [4] - AI推理服务器2025/26年出货量预计同比增长10%/16%,市场规模同比增长37%/19% [4] - 2024年全球AI服务器出货量预计181.1万台,同比增长26.29% [4] - 搭载HBM的高阶AI服务器出货量预计108.8万台,同比增长40%以上 [4] - 全球服务器市场规模预计从2024年2164.0亿美元增长至2028年3328.7亿美元,年复合增长率18.8% [4] - AI服务器将占据近70%市场份额 [4] - 中国AI服务器市场规模预计从2020年26.8亿美元增长至2024年75.3亿美元,年复合增长率29.6% [4] 成本结构 - AI服务器中GPU成本占比接近70% [5] - 从普通服务器升级至AI训练服务器,内存、SSD、PCB、电源等部件价值量有数倍提升 [5]
大家都在用AI,程度远超你想象
36氪· 2025-06-30 15:18
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:当公众的目光都聚焦在AI模型迭代时,一场真正的革命已悄然发生:全球企业级AI推理用量正呈指数级飙升,其商业变现能力远超预期。本文用 硬核数据揭示这场静默爆发的产业质变。文章来自编译。 很长时间以来,大多数AI服务(尤其是推理API)的使用量与收入的增长都极其迅猛。SemiAnalysis的Dylan Patel指出,这些API对企业来说利润非常高—— 毛利率有时候高达75%甚至更高。这在搞AI的人当中是众所周知的一个公开事实,但在新模型发布与功能炒作此起彼伏的喧嚣当中,广大公众反而可能忽视 了这一点。 我认为向普通用户提供订阅服务也是盈利的,但重度用户很可能会成为AI公司的成本负担,再加上训练尖端模型还需要明显的资本支出。尽管如此,即便 模型保持不变,其使用量也在呈指数级增长,而且其中很大一部分都在盈利范围内。 早在今年上半年我们看到整个行业取得诸多惊人进展之前,AI使用的极端(某些情况下是指数级)增长就已经发生了。推理模型将推理答案从几百个token 扩展到有时数万个token,这会让使用量图走势限 ...
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Z Potentials· 2025-06-29 13:20
图片来源: Unsplash 最新从 OpenAI 加入 Meta 的赵博士是 OpenAI 多款模型的核心贡献者,包括 o1-mini 和 o3-mini 模 型。后者作为该公司的小型快速推理模型,其性能表现令开发者印象深刻。去年秋季, o1-mini 在数 学能力上甚至超越了 OpenAI 更大的 o1-preview 模型。 根据领英资料显示,赵博士在 2022 年 6 月加入 OpenAI 前,曾是斯坦福大学计算机科学专业的博士 候选人。 根据余嘉辉的领英个人资料显示,他曾领导 OpenAI 的一个感知技术团队,专注于研究人工智能如何 收集和理解周围环境信息。毕书超在领英资料中显示为 OpenAI 多模态后训练负责人。任宏宇同样是 o1-mini 和 o3-mini 项目的核心贡献者。根据赵的公开研究资料显示,他曾在 2018 年与任合作发表过 一篇关于生成式 AI 模型偏见的论文。 过去一周, Meta 从 OpenAI 苏黎世办公室挖走了三名研究人员。这三人专注于多模态 AI 研究,即能 够识别和生成文本、视频及音频的模型。他们于去年底从 Google DeepMind 加入 OpenAI 。研究 ...
Meta挖角OpenAI核心研究员 强化AI推理模型布局
快讯· 2025-06-27 00:31
Meta挖角OpenAI核心研究员 - Meta聘请OpenAI研究员Trapit Bansal加入其新成立的AI超级智能部门 从事AI推理模型相关工作 [1] - Bansal的加入可能为Meta的AI超级智能实验室带来重要助力 该实验室已汇聚多位行业领军人物 包括前ScaleAI首席执行官Alexandr Wang 前GitHub首席执行官Nat Friedman以及Safe Superintelligence联合创始人Daniel Gross [1] - Meta目前尚未在其开源模型家族Llama系列中公开推出任何AI推理模型 [1] - 近几个月来 扎克伯格正通过高薪密集招募人才 以组建Meta全新的AI团队 据传为顶级研究员提供的薪酬方案高达1亿美元 [1] - Bansal此次加盟的具体薪资待遇尚未对外披露 [1]
黄仁勋称AI推理需要更多计算量
快讯· 2025-06-26 09:16
人工智能计算需求激增 - 英伟达CEO黄仁勋指出推理需要更多计算资源 [1] - 过去一年tokens生成量激增50到100倍 [1] - 大型人工智能工厂正在全球范围内快速建设 [1] 微软AI处理规模 - 微软上季度处理超过100万亿tokens [1] - 处理量是一年前的5倍 [1]
从PPTV到PPIO,派欧云不止负债越来越高
北京商报· 2025-06-24 23:07
公司概况 - 派欧云由PPTV创始人姚欣和前PPTV首席架构师王闻宇于2018年联合创立,采用轻资产运营模式,近期赴港递表 [2] - 按2024年营收计,公司在中国边缘云计算服务提供商中排名第七,市场份额4.1%,前三名天翼云、移动云、阿里云合计份额36.5% [2] - 公司专注于分布式云计算,适合图像及音视频传输等应用场景 [3] 财务表现 - 2022-2024年营收从2.86亿元增至5.58亿元,年复合增长率39.6% [4] - 同期销售成本从2.4亿元增至4.89亿元,占营收比例从83.9%升至87.7% [4] - 经调整净亏损从3913.4万元波动至6161.7万元,2024年同比扩大66.2% [6] - 2024年流动负债净额从4.39亿元扩大至7.38亿元,负债净额从4.04亿元增至6.96亿元 [5] 业务结构 - 边缘云计算服务贡献98.1%营收(2024年),AI云计算服务占比1.9% [9] - AI云计算服务2023-2024年营收从26.5万元增至1038.7万元,但毛损率高达91.3%-95.1% [10] - 全球AI云计算服务市场规模2024年315亿元,预计2029年达4277亿元(年复合增长率68.5%) [10] - 全球边缘云计算市场规模2024年1851亿元,预计2029年5003亿元(年复合增长率22%) [10] 客户与市场 - 2022-2024年前五大客户贡献营收占比86.1%-92.5%,最大客户占比35.2%-44.1% [11] - 主要客户集中于泛娱乐、社交媒体、电商领域,与分布式云计算应用场景高度匹配 [11] - 行业前三名天翼云、移动云、阿里云市场份额分别为13.8%、11.6%、11.1% [7] 行业观察 - 云计算行业普遍亏损,但金山云2024年亏损收窄60.5%,阿里云调整后EBITA增长33% [8] - 分布式云计算被公司视为AI推理的最佳选择,专家预测AI推理将占AI应用80%份额 [10] - 行业具有显著规模效应,龙头企业通过复用基础设施降低边际成本实现盈利 [8][9]
【美股盘前】三大期指齐涨,国际油价跌超2%;特斯拉涨近3%,瑞银上调其Robotaxi业务估值;黄仁勋开始减持英伟达股票,年底前或套现8.65亿美元;星巴克称未考虑全面出售中国业务
每日经济新闻· 2025-06-24 16:58
股指期货表现 - 道指期货涨0 66% 标普500指数期货涨0 79% 纳指期货涨1 05% [1] 国际油价走势 - 美油跌2 58% 布油跌2 71% 受以伊停火影响 [1] 美联储利率政策 - 特朗普呼吁美国利率应至少下调2到3个百分点 认为经济转弱时可再加息 [1] 稳定币市场动态 - Circle盘前续涨4 53% 上市以来累计涨幅约750% [1] 星巴克中国业务 - 星巴克否认考虑全面出售中国业务 强调中国市场长期潜力 股价涨0 73% [1] 英伟达高管减持 - 黄仁勋6月20日至23日出售10万股英伟达股票 价值1440万美元 年底前或套现8 65亿美元 [2] 特斯拉估值调整 - 特斯拉盘前涨2 8% 瑞银将其Robotaxi业务估值上调至3500亿美元 [2] AMD评级上调 - Melius Research将AMD评级从"持有"上调至"买入" 目标价从110美元上调至175美元 看好AI推理潜力 [2] 谷歌业务调整 - Google TV和Android TV团队预算削减10% 原预算不足5亿美元 可能影响约75名员工 [3] 美联储与经济数据 - 美联储主席鲍威尔将在众议院发表半年度货币政策证词 美国将发布6月谘商会消费者信心指数 [3]
研报 | 英伟达RTX PRO 6000特规版出货受市场关注,但存储器供应紧张成变数
TrendForce集邦· 2025-06-24 12:03
NVIDIA RTX PRO 6000系列产品分析 - 市场对NVIDIA RTX PRO 6000系列产品需求预期较高 但受限于存储器供应紧张等因素 出货量存在不确定性 [1] - RTX PRO 6000特规版预计2025年下半年推出 采用多元化存储器供应商策略:HBM主要依赖SK hynix LPDDR以Micron为主 GDDR由Samsung独家供应 [1] - RTX PRO 6000将采用96GB GDDR7 定位中低端GPU市场 聚焦AI推理 边缘端深度学习训练及影像模拟等应用 [2] 存储器供应链现状 - HBM领域SK hynix为主要供应商 预计2025年Micron供应占比将达30% [2] - LPDDR5x目前由Micron主导供应NVIDIA Grace主板 2026年Micron或成为SOCAMM独家供应商 [2] - GDDR7由Samsung独家供应 导致供应链持续吃紧 可能影响RTX PRO 6000生产与供货能力 [2] 产品应用与市场推广 - NVIDIA在COMPUTEX展会上联合ODM/OEM厂商推广搭载RTX PRO 6000的MGX AI Server 采用PCIe Gen5接口 瞄准企业边缘AI应用场景 [3] - MGX模块化参考设计未来将延伸至特定市场供应 [3] 行业研究背景 - 研究机构覆盖存储器 AI服务器 半导体 晶圆代工等高科技领域 提供产业分析与前瞻性报告 [12]