推理需求
搜索文档
推理需求爆发,国产芯片从“堆算力”转向系统协同
第一财经· 2026-01-27 20:00
行业趋势与共识 - 大模型行业经过2025年发展已形成共识,推理需求将以复合倍速增长,行业需要高性能、高性价比的芯片 [3] - AI应用场景发生变化,多模态需求爆发,智能体需要高频响应与实时交互,物理AI也在加速落地 [3] - 行业成本结构改变,推理成本已从“元级”压到“分级”,未来AI会像水电一样成为普惠基础设施 [3] - 每当百万token的成本降低一半,市场上AI应用数量会显著增长,算力市场的繁荣度也将呈倍数级提升 [5] 公司战略与产品发布 - 曦望公司于1月27日发布第三代推理GPU芯片启望S3,设定目标是将百万token成本打到一分钱 [3] - 公司战略专注推理方向,预计到2030年,推理芯片将占到公司资源分配的80% [3] - 截至目前,曦望已发布三款芯片:云边端视觉推理专用的S1、对标英伟达A100的训推一体芯片S2,以及最新的推理芯片S3 [3] - 公司认为先将推理做到极致能够在商业上形成优势,这是战略定力问题 [3] - 曦望同时发布了AI算力平台,以自研芯片为底座,与多家大模型进行适配,从系统侧提高芯片利用效率 [4] 技术挑战与竞争焦点 - 训推一体芯片存在三大困境:成本高昂且供应不稳定、能耗惊人、部署运维复杂 [4] - 芯片行业竞争核心从“堆算力”转变,随着推理算力需求爆发,“内存墙”逐渐成为芯片性能的主要瓶颈 [4] - 计算单元算力提升速度远快于访存带宽提升速度,导致大多数芯片的纸面算力无法在实际场景中释放,这一矛盾在推理芯片中尤为突出 [4] - 未来合理的算力访存比才是芯片竞争的关键,该指标是衡量芯片算力与数据传输能力匹配度的核心 [4] - 英伟达创始人提出从单芯片优化升级为系统级协同设计的方案,以应对挑战 [4] 产业生态与国产算力定位 - 以DeepSeek为代表的大模型公司,不仅会做大模型,也会牵引框架变化,带动从模型架构到算子开发、推理系统的全链路技术创新 [4] - 大模型公司正推动框架适配新计算范式与跨硬件部署,试图摆脱对英伟达CUDA生态的依赖 [4] - 国产芯片定位越来越准确,从最初盲目追求与国际高性能算力比肩,转变为在追求性能的同时也追求极致成本 [5] - 国产算力正处于一个非常有利的位置 [1][5]
并行科技赵鸿冰:如何最大化发挥算力效益?丨GAIR 2025
雷峰网· 2025-12-24 12:56
文章核心观点 文章基于并行科技副总裁赵鸿冰在GAIR 2025大会上的演讲及后续访谈,阐述了当前算力市场的多业态发展、从用户视角构建算力服务体系的必要性,并重点介绍了并行科技通过“厂网结合”模式构建算力网络、实现全国范围资源高效调度与商业化的实践与思考 [2][3][4] 算力市场业态与用户需求 - 当前算力市场呈现多场景、多业态爆发式增长,已形成四大核心业态:算力租赁(基础形态,交付“裸金属”资源)、算力服务(按需提供,匹配业务场景)、算力运营(复杂调度平台管理)、算力网络(更高维度,跨平台整体调度)[3][24] - 从用户视角出发,核心诉求归结为三点:可用(稳定供应)、好用(高效性能)、降本(高性价比),所有产品平台均围绕这三大需求设计 [22][23] - 根据计算精度和场景,算力市场可分为四类:尖端超算(如“天河”,需十万/百万核级,FP64精度)、通用超算(万核以下,高校科研)、业务超算(企业仿真)、智算(GPU加速,FP16/FP8/FP4精度,增长最快)[18][19] 并行科技的商业模式与运营实践 - 公司采用“厂网结合”特色经营模式:“厂”指重资产布局(如自建万卡集群),“网”指轻资产扩张,连接国内47个智算中心与15个超算中心,总计62个算力节点 [4][27] - 其算力网络可调度资源总量超过200万CPU核心、5万多张GPU卡,服务用户规模突破16万,商业化输出累计超过200亿核时、近2亿卡时 [4][27] - 公司已打造成熟的算力资源接入标准体系,根据规模、调度能力等维度对资源分级,实现快速接入与网络化输出 [7] - 商业模式以清晰的价值分层驱动利益分配,产业链分为前端市场销售、产品平台层、售后服务层、底层重资产投资与IDC托管,合作伙伴可根据自身优势匹配对应价值环节 [8] 技术能力与资源选型 - 基于18年行业经验与数据积累,公司构建了算力性能预测模型,在小规模场景下预测误差控制在2%以内,中大规模场景误差为个位数,有效支撑用户资源选型决策 [4][35] - 资源选型核心原则是“没有绝对最优的算力资源,只有最适配的选择”,例如在具身智能场景实测中,H200的性价比可能优于性能领先的B200 [4][32] - 在大规模推理场景中,消费级显卡5090因其高性价比成为多数客户的首选 [4][36] - 针对异构算力虚拟化损耗问题,容器技术是主流解决方案,可实现近乎零损耗;对于有极致性能需求的客户,可直接采用裸金属或高性能集群 [9][10] 行业趋势与未来展望 - 人工智能是全球竞争制高点,算力规模年复合增长率达到52.3%,头部科技企业的FOMO情绪及对发展窗口期的担忧推动了适度超前的算力基建投入 [5][6] - 推理需求正成为下一波算力增长核心引擎,OpenAI 2025年预估营收达130亿美元是推理业务规模化发展的直接体现,行业正朝此方向迈进 [11] - 推理成为主流后,算力产业核心诉求将变化:除可靠性外,更需要大规模弹性资源调度能力和更精细的资源匹配能力(如针对DeepSeek推理P阶段与D阶段的不同特征) [12] - 超节点(如英伟达NVL72、华为384超节点)本质是小型化超级计算机,通过高密度集成与高速互联降低通信开销,其发展需要软硬协同,具备超算技术积累的企业更具优势 [13][14][15] - 国产芯片(如华为昇腾910B)在部分适配场景中性能可与A100比肩,且具备价格优势,能提供更高性价比选择 [40] 公司市场地位与客户布局 - 公司在算力服务企业中商业化输出总量位居第一 [27] - 核心客群覆盖国内前四五百所头部高校(如清华大学、复旦大学)、中科院旗下数百家研究所,以及美的、三一重工、比亚迪、小鹏汇天、智谱等知名企业 [43][45]
博通(AVGO):营收创单季历史新高,指引25Q3AI收入同比持续高增
招商证券· 2025-06-06 23:11
报告公司投资评级 - 推荐(维持)[6] 报告的核心观点 - 博通 FY25Q2 营收创单季历史新高,毛利率超指引预期,得益于 AI 半导体业务强劲及 VMware 业务发展;AI 业务营收同比高增,软件受益 VMware 增速明显;指引 FY25Q3 预计营收同环比均增长,AI 收入同比增长 60%;预计 ASIC 增速将延续至 FY26,发布 Tomahawk6 带宽达 102.4TB/s [1][2][3][4] 各部分总结 FY25Q2 业绩情况 - 营收 150.04 亿美元创历史新高,同比+20%/环比+1%,超指引;毛利率 79.4%,同比+3.2pcts/环比+0.3pct,高于指引;库存 20 亿美元,环比增长 6%,库存周转天数 69 天 [1] - 半导体部门收入 84 亿美元,占比 56%,同比增长 17%,毛利率约 69%,运营费用 9.71 亿美元,运营利润率 57%;AI 业务收入超 44 亿美元,同比增长 46%,定制 AI 加速器同比两位数增长,AI 网络业务同比超 170%;非 AI 业务收入 40 亿美元,同比下降 5%,已接近底部但复苏缓慢 [2] - 基础设施软件收入 66 亿美元,占比 44%,同比增长 25%,毛利率 93%,反映将企业客户从永久许可 vSphere 转换为全 VCF 软件栈订阅的成功 [2] FY25Q3 业绩指引 - 营收约 158 亿美元,同比+21%/环比+5%,预计合并毛利率环比下降约 130 个基点,调整后 EBITDA 约占收入 66% [3] - 半导体部门收入 91 亿美元,同比增长 25%,人工智能收入 51 亿美元,同比增长 60%,非人工智能半导体收入预计 40 亿美元 [3] - 基础设施软件收入 67 亿美元,同比增长 16% [3] 未来展望 - 预计至少三个客户将在 2027 年各自部署 100 万个 AI 加速器集群,XPU 需求 26H2 加速,2025 财年 AI 半导体收入增长延续到 2026 财年 [4] - 发布的 Tomahawk6 交换机芯片以太网交换容量达每秒 102.4 太比特,专为数据中心需求设计 [4] 行业情况 - 行业股票家数 504 只,占比 9.8%;总市值 85940 亿元,占比 9.9%;流通市值 73262 亿元,占比 9.2% [6] - 行业指数 1m、6m、12m 绝对表现为 4.0、2.2、37.1,相对表现为 1.1、3.3、29.2 [8]
英伟达业绩:better than feared
信息平权· 2025-05-29 07:42
DeepSeek更新 - DeepSeek更新版本为R1-0528而非R2 推理能力确有提升 但公司认为该版本不足以称为R2 [1] - 真正的R2版本预计基于V4而非V3 需要更多时间开发 预期将有更大进步 [1] - DeepSeek将尝试一些新的技术方向 [1] 英伟达业绩分析 - H20库存过度计提10亿美金 从55亿下调至45亿 部分材料可重新利用 [1] - 4月9日前H20出货46亿美金 但禁令导致Q1少发货25亿美金 对应约200亿美金的资本支出缺口 [1] - H20在Q2影响80亿美金收入 若加回则Q2收入可达540亿美金 显示Blackwell需求强劲 [1] - Blackwell在数据中心收入占比从Q1的100亿美金跃升至Q2的300亿美金 过渡速度超预期 [1] - 微软已部署数万个Blackwell GPU 对应数百至1000个机柜 未来将扩展至几十万GPU 对应5000+机柜 [1] 行业趋势 - 推理需求呈现急剧增长 微软 谷歌等公司日均处理数万亿token [1] - Agent应用推动推理需求 超级agent集群所需计算量远超单次聊天机器人 [1] - 幻觉问题担忧正在被行业克服 多模态和agentic应用发展快于chatbot [1] - 美国AI商业化进程快于中国 两地生态差异明显 [1] 中国市场影响 - 出口禁令导致500亿美金中国市场对美国芯片关闭 Hopper产品线无法继续供应 [2] - 中国AI自主生态发展已成必然 但需关注付费生态和企业支持能否形成健康商业循环 [2] - 出口限制刺激中国本土芯片创新 可能增强中国厂商海外竞争力 [2] - 公司强调美国市场仍是其最大市场 同时肯定中国市场的战略重要性 [2]
英伟达CEO黄仁勋谈及Deepseek,称:推理模型要求更大的算力(支持),这正驱动推理需求。
快讯· 2025-05-29 05:41
行业趋势 - 推理模型对算力的需求正在增加,推动推理相关需求增长 [1] 公司动态 - 英伟达CEO黄仁勋提及Deepseek,强调推理模型需要更大算力支持 [1]
英伟达(NVDA.US)绩前大摩坚定唱多:更关注推理需求爆发 下半年增长路径已打开
智通财经网· 2025-05-28 16:59
英伟达2026财年第一季度业绩前瞻 - 公司将于周三美股盘后公布2026财年第一季度业绩 分析师共识预期营收433亿美元(上年同期260亿美元) 调整后每股收益0 88美元(上年同期0 61美元) [1] - 摩根士丹利认为H20芯片对华销售禁令带来重大冲击 估算第一季度营收损失10亿美元(23天影响) 第二季度损失50亿美元 [1] - 大摩维持英伟达"增持"评级 目标价160美元 认为若管理层能证明Blackwell供给持续改善且下半年加速增长 短期负面因素将弱化 [1] H20芯片对华销售禁令影响 - 公司无产品能完全替代H20 正在游说争取许可但短期难有结果 传言将推出中国特供AI芯片但交付时间与需求不明确 [2] - 大摩模型已计入禁令影响 预计第一季度营收422亿美元 第二季度435亿美元 低于市场普遍预期的470亿美元 [2] - 公司与美国政府关系密切 部分H20业务可能恢复 [2] GB200机架生产与交付进展 - 三家主要ODM在4月交付约1500台GB200机架 预计全年持续增长 部分OEM和超大规模客户尚未获得足够机架但解决方案在推进 [2] - 当前月交付节奏达1 8万台的年化水平 全年无法交付2万台的说法过于悲观 三家ODM均预测快速爬坡 [3] - GB200无直接竞品 公司自2月起鼓励客户聚焦其产能爬坡 GB300将在今年晚些时候推出 具体季度差异不大 [3] 推理需求与长期增长动力 - 推理需求爆发式增长是重要长期变量 所有超大规模客户均报告远超预期的推理需求增长 [3] - 产业链访谈显示市场急于添加GPU 在GB200短缺情况下客户请求扩充Hopper和B200容量 [3] - 液冷和ARM处理器生态未成熟 客户采购传统形态产品(如B200)满足推理需求 [3] 短期风险与股价展望 - 大摩认为短期风险已充分反映 下半年增长路径清晰 [4] - 若财报电话会能明确Blackwell供给改善和推理需求爆发 即使业绩未大幅超预期 股价仍将表现良好 [4]