Groq LPU单元
搜索文档
Feynman架构登场?英伟达GTC大会或首发1.6nm芯片
华尔街见闻· 2026-02-25 19:40
下一代产品路线图 - 英伟达可能在GTC 2026大会上首次公开展示下一代芯片代号Feynman 将市场对其算力路线图的关注点从Vera Rubin推向更远的周期[1] - GTC 2026大会的叙事重心可能从Vera Rubin转向Feynman 展示将以能力概览、架构轮廓与量产时间线为主 而非一次性披露全部细节[2] - 公司CEO黄仁勋表示其主题演讲将展示“从未公开过”的技术 这通常意味着新一轮产品节奏与关键供应链选择即将被确认[1] 先进制程与供应链 - Feynman芯片可能首次展示采用台积电A16 1.6nm工艺的产品方向[1] - 台积电A16是半导体领域的重大跨越 具备Super Power Rail 被称为“全球最小节点技术”[3] - 英伟达可能成为台积电A16节点初期大规模量产阶段的第一家客户 并且“可能是唯一客户”[1][3] - A16早期产能利用与导入节奏可能在相当程度上围绕英伟达的产品策略展开 移动端客户或在更晚阶段才会采用[3] 潜在技术集成与挑战 - 市场推测Feynman可能首次集成Groq的LPU硬件栈 以优化延迟指标[1][4] - 在封装与集成方式上 公司可能采用类似“混合键合”的路径 将LPU单元作为on-package选项[4] - 引入LPU单元会显著增加设计与生产难度 影响量产时间表 落地节奏更依赖工程复杂度与制造成熟度[1][4] 商业化时间预期 - 预计Feynman的生产将在2028年启动 客户出货可能落在2029至2030年[5][6] - GTC 2026的发布更可能是“前瞻式”的 以架构轮廓与路线图为主 先行建立下一代平台预期 再逐步兑现到量产与交付[6]
英伟达封死了ASIC的后路?
半导体行业观察· 2025-12-29 09:53
英伟达与Groq的交易性质与战略意图 - 英伟达与Groq达成了一项“非独家许可协议”,而非全面收购,旨在规避反垄断监管审查[18] - 该交易涉及约200亿美元,用于获取Groq的知识产权和关键人才,是一种典型的“反向收购”策略[19][21] - 交易使英伟达能够将Groq的低延迟处理器技术集成到其AI工厂架构中,扩展其推理和实时工作负载服务能力[18] Groq LPU技术的核心优势 - LPU是Groq针对推理工作负载的解决方案,其核心优势在于确定性执行和片上SRAM作为主要权重存储[10] - Groq芯片配备230MB片上SRAM,提供高达80TB/s的片上内存带宽,显著降低延迟并提升吞吐量[10][11] - 使用SRAM相比HBM能显著降低每比特能耗,尤其在解码这类内存密集型工作负载中至关重要[14] - LPU通过编译时调度实现确定性周期,消除内核间时间差异,确保流水线完美利用,实现高吞吐量[14] 英伟达整合LPU的技术路径与潜在方案 - 专家AGF认为,英伟达可能通过台积电的混合键合技术,将LPU单元堆叠在下一代Feynman GPU计算芯片上[1][3] - 预计LPU模块将于2028年首次出现在Feynman芯片上,该芯片预计采用台积电A16工艺[5] - 采用分离的SRAM芯片并堆叠在主计算芯片上,可以解决SRAM在先进工艺节点上缩放停滞和成本高昂的问题[5][6] - 另一种集成方案是将LPU作为机架级推理系统的一部分,与GPU协同工作,由GPU处理预填充/长上下文,LPU专注于解码[16] 行业背景:推理需求崛起与竞争格局 - 人工智能行业计算需求正从训练转向推理,推理是超大规模数据中心的主要盈利点[9] - 推理,特别是解码阶段,需要确定性和低延迟,这与训练更看重吞吐量的需求不同[9][10] - 谷歌等公司已推出专注于推理的ASIC芯片,被视为英伟达的替代品,加剧了推理市场的竞争[9] 英伟达Feynman芯片的潜在架构与影响 - Feynman芯片预计采用台积电A16工艺,配备背面供电和全GAA结构[5] - 通过混合键合技术堆叠SRAM/LPU芯片,可以在保留HBM用于大容量存储的同时,修复低延迟解码的模型浮点利用率[5][6] - 这种集成方案旨在为Feynman芯片在有利工作负载下带来巨大的推理性能提升[5] - 该技术路径若成功,可能使其他厂商的专用集成电路在推理市场面临巨大挑战[2][6]