3D RAM
搜索文档
从英伟达整合Groq看近存计算新路径
2025-12-29 09:04
涉及的行业与公司 * **行业**:人工智能芯片、近存计算、3D芯片技术、推理芯片市场[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20] * **公司**:英伟达、Groq、云天励飞、凯霞、华为、台积电、三星[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20] 核心观点与论据 * **英伟达收购Groq的战略意义**:英伟达以200亿美元收购Groq实体资产,核心团队加入,旨在强化推理芯片布局,承认推理时代到来,需为推理专门规划芯片[2] * **Groq LPU架构的优势**:专为推理设计,采用片内集成SRAM,带宽高达80TB/s,是英伟达最新Blackwell B300 GPU HBM带宽8TB/s的10倍,在处理70B大语言模型时解码速度可达每秒500个token以上,远超业内主流水平[3][4] * **Groq LPU架构的局限性**:场景专用性强,主要适用于实时性要求高的大模型推理,编程难度高,需手动排布流水线,完全依赖片内SRAM导致部署成本高,例如运行Deepseek 671B模型需5000颗芯片,而单台H200服务器即可完成[4] * **英伟达的融合策略**:将保持CUDA生态系统的通用性,通过NVFusion快速集成LPU,长期目标是在底层架构和编译器层面实现协同设计[1][5][6] * **推理芯片架构趋势**:推理场景与训练差异显著,无法用单一架构解决所有问题,未来架构将呈现多样化,需针对细分场景优化[6][7] * **国内3D DM方案的优势**:容量可达SRAM的百倍以上,带宽接近SRAM并优于HBM,拥有3-5倍以上的带宽优势[1][7] * **国内3D DM方案的挑战**:成熟度不足,需2-3年实现规模化部署,良率、散热及先进工艺可获得性是重要瓶颈[1][7][8] * **3D RAM的市场前景**:在推理侧市场前景广阔,拥有数量级以上的带宽优势,单芯片容量可达几十GB甚至上百GB,能有效支持大模型运行,应用场景包括边缘端、云推理等[3][10] * **3D方案的成本目标**:云天励飞计划推出新3D Memory芯片,目标是在单Token成本上实现几十倍下降,以显著降低TCO[11] * **3D芯片的落地节奏**:未来1-2年内,AI PC、手机等边缘端小型场景将率先采用,2-3年后语音推理方案预计可规模化商用[12] * **国内外技术发展对比**:国外在3D RAM及堆叠技术进展不逊于国内,且因可使用更先进制程(如4纳米、3纳米)而工程化挑战更小,但国内因制程受限需探索新技术,可能在部分先进技术上推进更快[14][15] * **3D架构的市场份额预期**:在未来训练与推理比例为30%训练、70%推理的大环境下,新型架构如3D在整个推理市场中预计能占据约30%的份额[16] * **多元化算力时间点**:多元化算力到来取决于大模型应用的渗透与普及,中国因国家层面推动(如“十五规划”目标2028年渗透率70%,2030年90%),可能比美国更快实现[18] * **3D技术的战略价值**:是国内在推理领域缩短与海外先进水平差距的有效路径,有望成为国内推理侧新技术范式的重要组成部分[19][20] 其他重要内容 * **凯霞的技术突破**:开发的高堆叠氧化物半导体沟道晶体管支持高密度3D DRAM,对国内市场是重要突破,将推动相关技术发展[1][14] * **云天励飞的技术路径**:专注于推理赛道,新一代芯片将采用GP/NPU架构,基于国产3D RAM实现极致推理性能,并首创算力积木架构推进云端3D推理芯片研发[13] * **系统级解决方案**:未来需从系统层面考虑,根据不同推理场景的要求组合合适的推理系统,而非依赖单一芯片[16] * **世界模型的影响**:目前仍处研究初期,其前身(如文生视频模型)主要瓶颈在计算而非带宽,对3D方案的利好有限[17] * **技术组合限制**:不太可能同时使用成本均较高的HBM与3D堆叠,会削弱各自优势[16]