Workflow
LPX机架
icon
搜索文档
计算机行业周报:GTC后,算力与物理AI思考-20260321
申万宏源证券· 2026-03-21 23:24
行业投资评级 - 看好计算机行业 [3] 报告核心观点 - 从GTC2026看AI芯片新趋势,为Agentic LLM服务,看好技术实力全面的芯片厂商,推理系统复杂化对计算、存储、通信提出更高要求 [5] - 物理AI正从技术框架走向应用落地,英伟达从算力供应商延伸为现实世界智能的平台型公司,产业逻辑正由“展示能力”转向“交付能力” [5] - 机器人大脑将成为人形机器人智能化和差异化的核心引擎,2026年有望推动人形机器人从技术展示向智能化应用交付全面跃迁 [5] 从GTC看AI芯片新趋势:为Agentic LLM服务 - GTC2026主旨为功能机架独立部署,推理硬件堆栈全面加强,英伟达以Rubin/Rubin Ultra GPU为训练核心与高吞吐推理底座,叠加低延迟推理专用LPX机架、支持大规模Agent运行的CPU机架、用于KV Cache热存的BlueField-4 STX机架 [7] - 推理算力系统设计形成类人三层网络:第一层快反应层由纯推理芯片(如LPU)提供极致低延迟反馈;第二层慢思考层使用超大吞吐GPU算力集群负责后台并行复杂逻辑推演;第三层记忆层存储Agent终身记忆和KV Cache [10][11] - 英伟达新增LPX机架,搭载Groq3 LPU,是最重要的技术趋势,旨在解决GPU多核架构不确定性导致的高延迟,匹配Agentic LLM推理范式变革 [12] - Agentic LLM需要单用户超过150 TPS的极致性能,传统GPU依赖大批次调度保障吞吐会牺牲延迟,无法满足需求,而Groq LPU凭借确定性编程架构,单token生成TPS可破千 [5][13] - LPU实现极低延迟的关键在于确定性编程,将调度权力从硬件完全移交给编译器,编译器在运行前精确规划每个时钟周期的数据路径,搭配无需刷新的SRAM静态存储,彻底消除性能抖动 [16][18] - LPU存在短板:SRAM存储密度极低(单颗仅500MB),存千亿参数模型BOM成本昂贵;确定性编译脆弱,模型结构细微变化可能导致无法生成最优路径;大规模集群网络同步维护困难 [19] - 英伟达采用Groq LPU和GPU异构协同,在模型层面设置A-F-D分离,在P-D分离基础上将Decode阶段再分为Attention和FFN,Attention计算交给Rubin GPU,FFN计算交给LPU [22] - A-F-D分离场景下通信量级极小,以主流7B模型为例,hidden size为4096,FP8精度下单token激活值仅4KB,双向传输仅8KB/层,32层模型单token总通信量仅256KB,编译器流水线编排可隐藏传输开销 [24] - FFN占据模型约2/3参数量,将FFN交给LPU是利用其极高权重搬运速度消除等待延迟,A-F-D设计允许系统物理上分离计算密集型和访存密集型任务,通过时间重叠减少计算单元空转 [25][28] - 华为同步跟进趋势,推出搭载昇腾950PR芯片的Atlas350加速卡,聚焦推理场景优化,采用SIMD+SIMT混合架构,支持多精度计算,细粒度访存设计提升小算子效率 [5][29] 物理AI:英伟达GTC、宇树招股书,从全栈工具到产业落地 - 英伟达GTC将物理AI作为核心单元展示,公司定位正从算力基础设施提供商延伸至现实世界智能的底层平台搭建者,形成覆盖“数据生成—环境仿真—模型训练—推理部署—运营优化”的完整工具链 [32][34] - Omniverse与Cosmos结合构成物理AI时代关键中间层基础设施,Omniverse负责将真实环境映射为可交互数字空间,Cosmos提供世界模型能力,使系统能理解环境变化,企业可通过仿真与合成数据提前完成训练测试 [34] - DSX(Omniverse数字孪生蓝图)的推出标志英伟达将AI工厂从硬件堆砌转向生产系统优化,核心指标变为“token per watt”,在电力约束下最大化单位能耗产出,通过数字孪生仿真和统一调度提升系统整体利用率 [38] - 在自动驾驶方向,英伟达展示重点从“感知能力”转向“推理能力”,Alpamayo平台面向具备思考与解释能力的新一代自动驾驶系统,旨在提升决策逻辑的可解释性、可验证性和可工程化程度 [40][42] - 英伟达正把硬件平台、软件栈与生态合作绑定为一体化方案,DRIVE Hyperion承担标准化车端平台角色,并通过与Uber等运营平台合作,将自动驾驶落点从技术开发推进至真实运营网络 [45] - 在机器人领域,英伟达将底层能力拆解为可组合标准模块:Isaac Lab负责机器人训练与评估;Newton负责可微分物理仿真;Cosmos负责世界建模和数据生成;GR00T负责通用机器人推理与动作策略生成,共同构成从环境理解到部署验证的连续链条 [46][47] - 英伟达机器人战略指向庞大的工业机器人存量市场,全球机器人巨头已开始整合Omniverse和Isaac相关能力,推动工厂向更高柔性、更高自动化水平升级 [48] - 宇树科技招股书披露,通用人形机器人具身大模型是公司核心技术,VLA(视觉-语言-动作)、WMA(世界模型-动作)及快慢系统构成从感知到动作生成的完整技术链路 [5][33] - 2026年被视为人形机器人具身智能发展关键一年,机器人大脑将成为机器人实现真正智能化和差异化竞争的核心,推动机器人从实验室研究向商业化、场景化应用快速迈进 [54] - 报告列出物理AI相关核心标的:物理AI底层(索辰科技);机器人大小脑(智微智能、天准科技);数字孪生(中控技术、能科科技、汉得信息、赛意信息、亚信科技) [54] 公司更新 - **合合信息**:2025年实现收入18.1亿元,同比增长25.8%;归母净利润4.5亿元,同比增长13.4% [55] - AI和出海是两大核心驱动:C端扫描全能王推出AI功能,2025年月活达1.9亿,同比增长11.1%;累计付费用户987.8万,同比增长32.8%;智能文字识别C端收入14.9亿元,同比增长30.3% [58] - B端受益于Agent渗透趋势,发布AI Infra等产品,智能文字识别B端收入0.9亿元,同比增长16.2%;商业大数据B端收入1.7亿元,同比增长13.8% [58] - 境外收入增速达34.11%,高于境内增速的21.88% [59] - **聚水潭**:国内领先电商SaaS ERP供应商,按2024年收入计,在中国电商SaaS ERP领域市场份额第一,占比24.4% [61] - 2024年服务88.4千名SaaS客户,净客户收入留存率115%,处理330亿订单 [61] - 2024年收入同比增长30.5%,经调整归母净利润转亏为盈达0.5亿元,毛利率保持60%以上 [65] - 业绩驱动力包括:电商平台多极化驱动ERP增长(2024年渗透率仅1.6%);规模化效应(现有客户收入占比提升);获客效率改善(获客成本从2022年1.85万元降至2025H1的0.82万元) [68][71] - AI赋能:接入千问大模型,智能客服场景可提效30%以上,商品管理搜图准确率达90%以上 [73] - **金蝶国际**:2025年实现收入70.1亿元,同比增长12.0%;实现净利润0.9亿元(2024年同期亏损1.4亿元);经调净利润约2.3亿元 [76] - 云业务强劲,云服务收入达57.8亿元,占总收入83%;订阅服务ARR达40.9亿元,同比增长19% [76] - AI转型加速,AI合同金额3.56亿元,发布近20款独立AI Agent,面向小微市场金蝶AI实现记账效率提升80%以上,开票效率提升40% [77] - 经营质量提升,2025年毛利率达67.1%,同比提升2个百分点;41%新增代码由AI生成,研发交付周期缩短21% [76] 推荐投资主线 - 报告推荐九大投资主线:1) 数字经济领军;2) AIGC应用;3) AIGC算力;4) 数据要素;5) 信创弹性;6) 港股核心;7) 智联汽车;8) 新型工业化;9) 医疗信息化 [5] - 每条主线下列出详细标的公司,例如数字经济领军包括海康威视、金山办公等;AIGC算力包括浪潮信息、海光信息等 [78][79]
华尔街点评GTC:在英伟达的定义里,算力即收入,Token是新的大宗商品
华尔街见闻· 2026-03-17 20:16
AI算力商业逻辑重构 - 公司提出核心叙事:Token已成为新的大宗商品,算力即收入 [1] - Blackwell系统相较上一代Hopper,每Token成本降低高达35倍,即将推出的Rubin系列有望在此基础上再降低2至35倍 [1] - 持续压缩的Token成本曲线被视为驱动AI需求规模化扩张的根本动力 [1] 需求能见度与结构 - 公司管理层将数据中心销售可见度从5000亿美元(覆盖至2026年)大幅上调至逾1万亿美元(覆盖2025至2027年累计)[1] - 高置信度采购订单已超过1万亿美元,较2025年10月公布的5000亿美元翻倍 [2] - 需求结构多元化:约60%来自超大规模云厂商,约40%分布于CUDA云原生AI企业、云合作伙伴、主权AI及工业/企业客户 [2] 传统企业工作负载加速 - 公司阐述了传统企业工作负载加速这一需求向量,宣布与IBM、谷歌云、戴尔等合作,并推出cuDF及cuVS两大CUDA-X基础库 [3] - 该方向逻辑在于摩尔定律趋于失效,领域专用加速是唯一可行的替代路径,这将把公司的可寻址市场扩展至AI训练/推理周期之外 [3] 架构创新:Groq LPU整合 - Groq 3 LPU与Vera Rubin的整合被评定为架构层面最重要的新品发布 [4] - 该解耦推理架构将高吞吐量的Rubin GPU与低延迟解码的Groq LPU配对使用,优化不同工作负载 [4] - LPX机架集成256颗LPU,提供128GB聚合SRAM、40PB/s内存带宽及315 PFLOPS推理算力,预计2026年第三季度上市 [4] - 对于需要超高Token速度的工作负载,约25%的数据中心功耗将分配给LPX机架 [4] - Rubin系统搭配SRAM LPX机架后,高端低延迟工作负载的效率可较上一代提升35倍 [5] - 该架构解决了单一处理器无法同时优化吞吐量与延迟的矛盾,使公司能在高端推理市场有效竞争 [6] 互联技术路线 - 公司将同时推进铜缆与共封装光学两条互联路线 [7] - 在Vera Rubin世代,Oberon机架采用铜缆扩展至NVL72,光学扩展至NVL576 [7] - Spectrum-6 SPX共封装光学以太网交换机已量产,其光学功耗效率较传统可插拔收发器提升5倍,韧性提升10倍 [7] - 对于Rubin Ultra,Kyber机架采用铜缆NVLink扩展,同时提供基于CPO的NVLink交换方案作为备选 [7] - CPO扩展对客户完全可选,预计铜缆扩展将在至少2027年前继续主导NVL72/NVL144配置 [7] 独立CPU业务 - Vera CPU独立业务被确定将成为一个数十亿美元量级的业务,属于增量收入来源,尚未被当前市场一致预期所涵盖 [8] - Vera CPU搭载88颗自研ARM核心,内存带宽1.2TB/s,功耗仅为传统服务器CPU的一半,通过NVLink-C2C以1.8TB/s速率与GPU互联 [8] - CPU正成为智能体AI扩展的瓶颈,强化学习与智能体工作流需要大量CPU环境来测试和验证GPU模型的输出结果 [8] - Meta已在规模化部署上一代Grace CPU,Vera将于2027年接替 [8] 产品路线图与平台战略 - 公司重申年度平台发布节奏:Blackwell(2024年)→ Blackwell Ultra(2025年)→ Rubin(2026年)→ Rubin Ultra(2027年)→ Feynman(2028年)[9] - Rubin Ultra将采用4芯片GPU配置,搭载1TB HBM4e,新增LP35 LPU芯片,Kyber机架支持每NVLink域144颗GPU [9] - Feynman细节超出预期:采用台积电A16(1.6nm)工艺,引入芯片堆叠与定制HBM;新CPU命名为Rosa;新LPU命名为LP40;还包括BlueField-5 DPU、ConnectX-10超级网卡等 [9] - 公司纵向整合平台横跨七颗芯片、五种机架系统及配套软件栈,难以被复制 [10] - 推理需求加速、传统工作负载加速带来的可寻址市场结构性扩张,以及客户基础的持续拓宽,共同支撑着一个更具持续性的AI资本开支周期 [10]
直击北美AI前线-一线调研反馈及GTC-OFC前瞻
2026-03-16 10:20
涉及的行业与公司 * **行业**:AI硬件、光通信、数据中心网络、先进封装与测试、液冷技术 * **公司**:英伟达、思科、Coherent、Arista、Celestica、博通、超微电脑、Ciena、Juniper、诺基亚、谷歌、Anthropic、Groq、台积电 核心观点与论据 1. AI 硬件需求强劲且可持续,订单能见度极高 * AI硬件需求具有长久生命力,订单能见度极高,Celestica、思科、Coherent等厂商的订单已延伸至2027-2028年[1] * 核心驱动力来自企业侧为员工提供的丰厚AI Tokens额度,以及成熟的企业与个人用户付费习惯,形成了产业正向闭环[3] * 思科在过去半年内,其AI相关订单额增长了近三倍[3] * 超微电脑对2026财年收入达到400亿美元的预期抱有信心[3] 2. 供应链瓶颈转移,需求韧性高 * 供应链瓶颈已从一两年前的GPU供给,转向内存、电力、站点建设及液冷系统等综合性因素[3] * 大型云服务提供商通过与核心供应商锁定资源来积极规避供应短缺风险[3] * 下游订单并未因上游零部件供应问题出现波动,需求韧性非常高[3] 3. Scale Up/Across 成为网络硬件超预期增量来源 * Scale Up(纵向扩展)和 Scale Across(横向扩展)是未来两到三年可能超预期的增量需求来源[5] * Scale Up场景的高密度、高带宽要求为硬件投资带来高上行弹性,已出现多个基于1.6T单接口方案的核心项目[5] * Scale Across场景(满足训练等高性能场景下的长距离连接)催生了相干光技术的广泛应用,将成为市场增量空间[5] * Coherent上修了其对2030年CPO市场空间的预期(原50亿美元),主要超预期潜力来自Scale Up场景[1][5] 4. CPO技术路径明确但落地节奏分化,长期与可插拔方案共存 * CPO是长期技术趋势,但短期迫切性因场景而异[6] * 在Scale Out场景中,CPO推进缓慢,因下游头部云厂商对供应链垂直整合犹豫,且可插拔方案已能提供有效低功耗选择[6] * 在Scale Up场景中,CPO的上行弹性越来越大,被认为是更迫切需要应用CPO技术的领域[6] * 未来五到十年,可插拔方案与CPO方案将长期共存[1][6] * Arista预计CPO的实际落地时间将在2029年或2030年[15] * Celestica认同博通CEO观点,目前仅与一家客户在Scale-out领域的CPO交换机上有接触,但尚未形成订单[19] 5. 光连接标准组织涌现,头部厂商向平台化转型 * 近期密集成立的CPX MSA、OCI MSA和XPO MSA等开放标准组织,旨在为未来更高带宽、更高密度的光连接形态(如CPO、NPO、基于液冷的可插拔形态)制定标准[7] * 头部光模块和交换机厂商积极参与,确保光学引擎在未来成为标准化部件,以多样化产品形态深入参与各种光连接市场[8] * 核心光模块厂商正逐渐向平台化解决方案供应商转型,并有望成为未来各种CPO形态中的核心供应商[8] 6. OCS定位为以太网补充,市场空间有限 * OCS正从定制工具转变为AI数据中心中可能具备一定通用性的关键组件,Coherent的OCS产品已向超过10家客户交付多种规格产品[9] * 传统交换机厂商认为OCS与传统以太网交换机是互补而非替代关系,更适用于计算节点关系相对固定的场景[10] * 交换机厂商引用第三方数据预测OCS到2030年的市场空间约为30亿美元,不会对传统的AI以太网交换机产生明显替代作用[1][11] 7. 英伟达GTC 2026前瞻:或发布LPU异构推理方案 * 英伟达GTC 2026最重大的更新可能在于展示其推理基础设施从以GPU为中心向以工作负载分工为导向的平台级架构升级[22] * 可能发布LPX机架、GPU加LPU的异构推理方案、NVLink Fusion技术及推理软件Dynamo[22] * LPU的优势在于集成了230兆的片上SRAM,片上带宽约为HBM3E的十倍,访存时延控制在10ns以内,能解决解码阶段对带宽和访问时延敏感的核心痛点[23] * 英伟达引入LPU的核心动机在于补齐GPU在实时推理方面的结构性短板,降低对HBM产能与成本的约束,并应对多元化竞争[24] * Rubin时代可能采用独立的LPU机柜与GPU机柜配合,费曼平台时代可能出现GPU与LPU的共封装方案[24] 8. 先进封装与测试环节将受益于异构集成趋势 * 将GPU与LPU整合,尤其是在费曼时代实现共封装,对工艺和供应链提出巨大挑战,预计未来2-3年将成为可量产技术[25] * 芯片堆叠复杂度的增加将带动PCB板及相关高速材料用量的提升[26] * 对先进封装和先进芯片测试的需求将大幅拉动,测试时间、步骤会显著增加,并催生新的测试方案,为相关设备商带来重大利好[26] 其他重要内容 9. 板块投资排序与逻辑 * 当前板块推荐排序依次为:光通信 > AI 定制化芯片 > 液冷 > 交换机[2] * **光通信**:逻辑在于800G和1.6T光模块同步放量,光芯片涨价,CPO技术路径明确,以及法拉第旋片供不应求带来的涨价[21] * **AI定制化芯片**:Anthropic采购谷歌TPU的计算容量将从2026年的1GW提升至2027年的3GW,谷歌TPU供应链(如博通和Celestica)未来业绩有望持续加速[21] * **液冷**:正迎来大规模放量阶段,AI定制化芯片机柜的液冷渗透率将提升[21] * **交换机**:受益于计算芯片放量,AI以太网交换机的增速明确,且未来有较大概率会上修[21] 10. 关键公司动态与观点 * **Coherent**: * 与英伟达的合作包括一笔20亿美元的投资以及一份覆盖2027年至2030年、包含量与价的购买协议[11] * 订单可见度已延伸至2028年,2026年产能已被全部锁定,book-to-bill比例为4倍[11] * 在CPO所需的高功率CW激光器方面,其6英寸磷化铟衬底具备产量和成本优势[12] * OCS产品拥有64×64端口和320×320端口的产品线,至少有一个客户已进入量产阶段[13] * **Arista**: * 认为其在Scale-across路由器的能力源于过去十年在DCI领域积累的经验,通过EOS软件将能力延伸至该场景,性能远超竞争对手[14] * 预计CPO的实际落地时间将在2029年或2030年,当前认为LPO是一个较好的解决方案,并已开始提供量产的LPO交换机[15] * **思科**: * 在AI领域策略变得更为灵活,可根据客户需求以零部件形式提供产品,并在相干光模块领域提供定制化产品[17] * 认为超大规模云厂商当前更倾向于可插拔方案,只有当其无法满足需求时才会切换至CPO[17] * 作为超大规模云厂商的核心相干光模块供应商,已推出聚焦Scale-up和Scale-across互联的P200交换芯片[16] * **Celestica**: * 认为其交换机产品凭借较低的价格,在接入层和叶交换机层具有显著优势,有机会获取较大市场份额[18] * 已投入资本开支在美国、泰国等地进行产能扩张,新产能预计在2026年稍晚上线,2027年全面释放[18] * 预计到2027年,来自云原生客户(如OpenAI)的ASIC机柜方案有望放量,将带来数十亿美元的收入潜力[18] * 预计在2026至2028年间将保持增长,其中2026年和2027年的订单可见度较高[19] 11. 投资者关注问题与行业共识 * **内存涨价**:交换机厂商普遍认为影响有限,因内存在交换机BOM中占比仅为个位数,且可通过提价转移成本[10] * **云厂商资本开支增速**:尽管未得到正面回答,但从各公司的订单指引和客户沟通情况看,未来业绩普遍预期将加速,部分厂商订单可见度已延伸至2027-2028年[10][11] * **OCS替代担忧**:交换机厂商普遍认为其未来应用场景有限,不会对传统的AI以太网交换机产生明显替代作用[11] 12. 宏观与市场观点 * 尽管近期部分芯片公司股价因宏观因素承压,但2026年AI算力需求依然处于高景气周期,算力供不应求的缺口依然存在[26] * 从2027年估值看,算力芯片龙头企业的估值已处于相对合理甚至偏低的水平[26] * 面对Tokens消耗确定性的爆发式增长,2026年尤其是下半年,随着业绩兑现,市场关注度有望提升[26] * 在关税和宏观经济不确定性背景下,建议关注通过分红和股份回购积极进行股东回报的防御型标的[21]
未知机构:广发海外电子通信英伟达NVDABuy指引小幅超预期增-20260228
未知机构· 2026-02-28 10:55
**公司:英伟达 (NVIDIA)** * **业绩与指引小幅超预期**:F4Q26营收达681亿美元,高于分析师预期的674亿及彭博共识的662亿[3] 对F1Q27的营收指引为780亿美元,高于分析师预期的760亿及买方共识的750亿[1][2][3] * **增长动力明确**:增长驱动因素包括近期季度业绩展望不变、Rubin/VR200平台按计划推进、网络业务增强以及非tier-1 CSP财务状况改善[2] 管理层预计FY27营收将逐季增长,主要驱动因素为Blackwell、Rubin、CSP支出可见度延长及非CSP贡献增加[3] * **财务目标稳健**:公司重申FY2027的毛利率目标为mid-75%[1][3] F1Q27毛利率指引为75%[3] F4Q26毛利率/营业利润率分别为75.2%/67.7%[3] * **会计政策调整**:自F1Q27起,公司将在非GAAP业绩中纳入股权激励薪酬支出,分析师视此举措为正面信号[3] 但运营支出因此上升[2] * **市场反应与估值调整**:鉴于庞大的营收规模难以实现大幅超预期以及运营支出上升,股价在盘后交易中基本持平[2] 分析师将FY2027/2028 EPS预测分别调整-1%/+1%,基于33倍FY2027市盈率,将目标价微调至292美元[2] **行业:AI与数据中心** * **数据中心业务强劲**:F4Q26业绩主要得益于数据中心业务强劲增长[3] 其中网络业务营收达110亿美元,环比增长34%,同比增长263%[3] * **CSP资本支出巨大**:前五大云服务提供商2026年资本支出接近7000亿美元[4] 管理层强调只要CSP增加算力,就会为英伟达带来更多营收和现金流[4] * **行业趋势判断**:CEO认为行业正处于代理AI拐点,而物理AI将是下一波浪潮[4] 电力制约导致每瓦性能的重要性日益提升,并驱动部署决策[3] * **产品路线图与竞争**:即将到来的GTC 2026大会预计将成为催化剂[2] 预计将发布的新产品/技术包括:LPX机架以提升推理产品组合[4] Rubin NVL72得益于三星HBM4,将提升产品领先地位[4] NVL576将Scale Up范围扩大至超过72个CPU[4] CPO交换机预测2026/2027年达2万/10万部[4]
补齐AI推理拼图:英伟达黄仁勋揭秘Groq LPU整合路线图
搜狐财经· 2026-02-27 11:45
收购与战略整合 - 英伟达以价值200亿美元(约合1370.47亿元人民币)的非授权收购Groq,并将其重要性与此前收购Mellanox相提并论,暗示Groq将在公司AI版图中发挥革命性基础作用 [1] - 收购的核心整合计划与架构整合细节将于下月召开的GTC 2026大会上公布 [1] - 此次收购的战略目标是补齐AI推理阶段的短板,特别是实现对延迟极度敏感的“解码”环节的行业标杆能力,而公司现有的Hopper、Blackwell及Rubin CPX架构已主导训练市场并覆盖推理的“预填充”阶段 [1] 技术路线与行业趋势 - 行业正加速迈向要求极低延迟和超快响应速度的多智能体协同时代 [1] - Groq的语言处理单元采用片上SRAM,能够提供每秒数十TB的内部超高带宽,此技术路线亦被Cerebras和微软等巨头采用 [2] - 引入LPU技术可使AI智能体在几秒内完成复杂逻辑推理,有效打破多智能体协作时的算力瓶颈 [2] 产品与方案预测 - 市场预测英伟达将在GTC大会上推出名为“LPX机架”的混合计算方案,该方案预计在单个机架内集成256个LPU单元 [4] - 在硬件互联方面,LPU之间将采用原生的准同步芯片间协议连接,而LPU与GPU之间则有望通过NVLink Fusion技术互联,以在预填充阶段高效处理来自GPU的海量KV缓存卸载 [4]