关键要点总结 涉及的行业与公司 * 行业:人工智能芯片、高性能计算、半导体制造与先进封装 * 公司:英伟达、Groq、台积电、英特尔、AMD 核心观点与论据 英伟达的战略与并购逻辑 * 英伟达处理Groq的策略与2019年收购Mellanox的路径一致,旨在吸收其技术团队与IP并融合进后续产品,而非以独立产品线形式销售,以强化其在高性能计算领域的护城河[1][2] * 英伟达当前的三大护城河被定义为:高性价比算力、interconnect(互联技术)、CUDA软件生态[2] Groq LPU的技术定位与设计初衷 * Groq LPU主要针对推理侧对极低时延的刚性需求,尤其适配batch size=1的推理场景[1][4] * GPU擅长训练和batch size较大的推理,而面向Agentic AI/AGI应用,推理环节的多步链式处理需要更强调低时延和确定性的架构[4] * 实现超低时延的两大关键技术:1) 采用约230MB的片上SRAM以降低外部存储访问时延[5];2) 通过compiler定义确定性时序,实现更稳定可预测的低时延表现[5] LPU与英伟达产品的整合路径与时间线 * LPU与英伟达GPU的整合预计至少需要18-24个月,最可能落地在Finman那一代产品[1][6] * 整合形态更可能是封装级集成,采用chiplet思路,将LPU die与Finman compute die通过混合键合和TSV技术结合,以实现极低时延的数据交互[1][6] * Finman compute die可能采用台积电A16节点,而承载大量SRAM的LPU die可能选择更成熟的3nm或4nm节点,以利于实现更高的SRAM配置密度和3D堆叠集成[1][7] * LPU能力将整合进GPU体系内部,通过chiplet形态纳入整体架构,不会以独立LPU产品形式推出[1][7] 技术协同与产业链影响 * LPU的整合不会对HBM用量产生影响,因为HBM面向训练和大batch size推理,而LPU的SRAM属于GPU内部另一层级的memory[8] * 若方案落地,受益方向更可能集中在Triplet相关的先进封装环节,而非HBM或PCB方向[1][9] * 台积电A16节点将引入背部供电技术,可腾出正面布线空间用于放置LPU chiplet,支撑通过triplet架构进行集成,并有助于降低功耗[3][13] * LPU存在互联可扩展性局限,其架构最多可连到576颗并保持性能,英伟达可能通过将LPU直接放入GPU架构内部来规避此问题,将互联重点转回NVLink框架[3][9] * LPU的软件体系有融合进CUDA的可行路径,即可将其SRAM视为memory hierarchy中的新增一层,通过CUDA既有的内存管理方式进行统一调度[10] CPU架构演进与市场策略 * 需关注Rubin Ultra是否会提供X86架构选项,这与英伟达近期加仓英特尔、清仓ARM的持仓变化存在逻辑关联[12] * 推理与Agentic AI的强化使CPU在推理与指令处理环节的作用被重新认识,X86因指令丰富、功能覆盖强,其重要性可能上升[12] * 英特尔可能不再区分P核与E核路线,转向只做一条路线,可能与功耗优化诉求相关[13] * 英伟达CPU路线分三步:先scale out,再scale up,最终走向全光架构[14] * 2026年是CPU元年,因Rubin是第一批上CPU的产品;2027年预计将是CPU放量的一年,依据是Rubin Ultra阶段CPU将上scale up,量级将明显提升[14][15] 产品发布与行业展望 * 即将到来的GTC大会,Rubin相关内容因已多次披露,预计不会作为主要篇幅;更值得关注的是Rubin Ultra以及Firemon加LPU的架构方向等主线[11] * 对大模型驱动的AI长期演进判断:大模型不是通往AGI的唯一道路,当前处在“青黄不接”阶段,后续会出现新的算法以及改良算法[16] * 近期李飞飞与杨乐昆倡导的“世界模型”方向,强调Spatial Intelligence,试图刻画“世界中正在发生的事情”,被认为对机器人智能发展尤为关键[16] * 不同算法在不同时间点对芯片的需求结构可能不同,需求强弱可能阶段性切换[16] 其他重要内容 * 对英伟达的投资观点:财报后目标价格为310美元,认为对2026年利润等预期的定价已相对充分[16] * 整体建议持续关注GTC三大重点所映射的全链条机会[16]
英伟达的下一个Mellanox-针对Agentic-AI底时延的Groq-LPU