Nvidia-英伟达的下一个Mellanox-针对Agentic-AI底时延的Groq-LPU

关键要点总结涉及的行业与公司 * 行业：人工智能芯片、高性能计算、半导体制造与先进封装 * 公司：英伟达、Groq、台积电、英特尔、AMD 核心观点与论据英伟达的战略与并购逻辑 * 英伟达处理Groq的策略与2019年收购Mellanox的路径一致，旨在吸收其技术团队与IP并融合进后续产品，而非以独立产品线形式销售，以强化其在高性能计算领域的护城河[1][2] * 英伟达当前的三大护城河被定义为：高性价比算力、interconnect（互联技术）、CUDA软件生态[2] Groq LPU的技术定位与设计初衷 * Groq LPU主要针对推理侧对极低时延的刚性需求，尤其适配batch size=1的推理场景[1][4] * GPU擅长训练和batch size较大的推理，而面向Agentic AI/AGI应用，推理环节的多步链式处理需要更强调低时延和确定性的架构[4] * 实现超低时延的两大关键技术：1) 采用约230MB的片上SRAM以降低外部存储访问时延[5]；2) 通过compiler定义确定性时序，实现更稳定可预测的低时延表现[5] LPU与英伟达产品的整合路径与时间线 * LPU与英伟达GPU的整合预计至少需要18-24个月，最可能落地在Finman那一代产品[1][6] * 整合形态更可能是封装级集成，采用chiplet思路，将LPU die与Finman compute die通过混合键合和TSV技术结合，以实现极低时延的数据交互[1][6] * Finman compute die可能采用台积电A16节点，而承载大量SRAM的LPU die可能选择更成熟的3nm或4nm节点，以利于实现更高的SRAM配置密度和3D堆叠集成[1][7] * LPU能力将整合进GPU体系内部，通过chiplet形态纳入整体架构，不会以独立LPU产品形式推出[1][7] 技术协同与产业链影响 * LPU的整合不会对HBM用量产生影响，因为HBM面向训练和大batch size推理，而LPU的SRAM属于GPU内部另一层级的memory[8] * 若方案落地，受益方向更可能集中在Triplet相关的先进封装环节，而非HBM或PCB方向[1][9] * 台积电A16节点将引入背部供电技术，可腾出正面布线空间用于放置LPU chiplet，支撑通过triplet架构进行集成，并有助于降低功耗[3][13] * LPU存在互联可扩展性局限，其架构最多可连到576颗并保持性能，英伟达可能通过将LPU直接放入GPU架构内部来规避此问题，将互联重点转回NVLink框架[3][9] * LPU的软件体系有融合进CUDA的可行路径，即可将其SRAM视为memory hierarchy中的新增一层，通过CUDA既有的内存管理方式进行统一调度[10] CPU架构演进与市场策略 * 需关注Rubin Ultra是否会提供X86架构选项，这与英伟达近期加仓英特尔、清仓ARM的持仓变化存在逻辑关联[12] * 推理与Agentic AI的强化使CPU在推理与指令处理环节的作用被重新认识，X86因指令丰富、功能覆盖强，其重要性可能上升[12] * 英特尔可能不再区分P核与E核路线，转向只做一条路线，可能与功耗优化诉求相关[13] * 英伟达CPU路线分三步：先scale out，再scale up，最终走向全光架构[14] * 2026年是CPU元年，因Rubin是第一批上CPU的产品；2027年预计将是CPU放量的一年，依据是Rubin Ultra阶段CPU将上scale up，量级将明显提升[14][15] 产品发布与行业展望 * 即将到来的GTC大会，Rubin相关内容因已多次披露，预计不会作为主要篇幅；更值得关注的是Rubin Ultra以及Firemon加LPU的架构方向等主线[11] * 对大模型驱动的AI长期演进判断：大模型不是通往AGI的唯一道路，当前处在“青黄不接”阶段，后续会出现新的算法以及改良算法[16] * 近期李飞飞与杨乐昆倡导的“世界模型”方向，强调Spatial Intelligence，试图刻画“世界中正在发生的事情”，被认为对机器人智能发展尤为关键[16] * 不同算法在不同时间点对芯片的需求结构可能不同，需求强弱可能阶段性切换[16] 其他重要内容 * 对英伟达的投资观点：财报后目标价格为310美元，认为对2026年利润等预期的定价已相对充分[16] * 整体建议持续关注GTC三大重点所映射的全链条机会[16]