带宽墙
搜索文档
带宽战争前夜,“中国版Groq”浮出水面
半导体行业观察· 2026-01-15 09:38
AI推理芯片行业趋势:从算力竞赛转向带宽战争 - AI行业竞争焦点正从单纯算力比拼转向对单位面积带宽的极致追求[4] - 大模型推理中90%的延迟源于数据搬运,导致算力利用率常低于30%[4] - 行业共识是通过存储靠近计算、流式执行与片上带宽构建来提升推理效率,AMD、d-Matrix、SambaNova等公司均印证此方向[4] 英伟达的战略布局:收购与架构革新 - 英伟达斥资200亿美元收购Groq核心技术,创公司历史最大交易,旨在抢占AI推理市场[2] - 计划于2028年推出新一代Feynman架构GPU,采用台积电A16制程与SoIC 3D堆叠技术,核心目的是在GPU内部深度集成Groq的LPU(语言处理单元)[2] - 此举旨在解决AI推理中长期存在的“带宽墙”与“延迟瓶颈”,推动公司从“算力霸主”向“推理之王”转型[2] 传统GPU在推理任务中的瓶颈 - 英伟达GPU架构最初为大规模训练与图形渲染设计,强调峰值算力与吞吐能力[14] - 在大模型推理的Decode阶段,GPU性能瓶颈主要来自对外部存储(HBM)和复杂内存层级的高度依赖[14] - 该过程呈现强序列性、小批量和带宽主导特征,与GPU设计初衷错配,导致访存延迟波动、算力难以稳定发挥[14] 寒序科技:中国MRAM推理芯片的开拓者 - 公司源于北京大学物理学院,以“超高带宽推理芯片”为核心产品,被业内视为中国大陆少有的在技术路线层面对标Groq的团队[6] - 采用“双线布局”:SpinPU-M系列磁概率计算芯片覆盖组合优化市场;SpinPU-E磁逻辑计算芯片系列直指大模型推理解码阶段加速[7] - 核心技术路线是片上MRAM(磁性随机存储器),构建超高带宽磁性流式处理架构(MSA)[7][9] - 目标是将访存带宽密度提升至0.1-0.3 TB/mm²·s,比肩Groq LPU(0.11 TB/mm²·s),是英伟达H100(0.002-0.003 TB/mm²·s)的数十倍[12] - 公司是国内首个有能力跑通从物理、材料、器件到芯片设计、算法全链条的交叉团队,拥有“材料-器件-芯片-系统-算法”的全栈攻关能力[16] MRAM技术的优势与战略价值 - **存储密度领先**:MRAM采用1T1M结构,同等芯片面积和工艺节点下,存储密度是SRAM的5-6倍[11] - **工艺成本更低**:MRAM在国产成熟制程(如28nm/22nm)下性能可对标先进制程的SRAM,单片流片成本可降至原来的十分之一以下,保障供应链自主可控[20] - **非易失性与高能效**:断电后数据不丢失,待机功耗接近零,具备快速启动、高耐用性优势,为边缘和云端部署提供极佳能效[20] - **规避技术封锁**:美国出口管制限制内存带宽密度超过2GB/s/mm²的存储器,而HBM产能被海外巨头垄断,Groq的SRAM方案成本极高。MRAM基于成熟制程实现超高带宽,可规避对尖端工艺和海外供应链的依赖[21] - **市场前景广阔**:2024年全球MRAM市场规模估计为42.2亿美元,预计到2034年增长至约847.7亿美元,复合年增长率高达34.99%[30] 国内外MRAM产业发展现状 - **国际大厂积极布局**:台积电、三星、英特尔、SK海力士等已将嵌入式MRAM推进到22nm、16nm等节点。恩智浦、瑞萨电子、GlobalFoundries等已在汽车、工业领域推动MRAM商业化落地[23] - **国内生态初步形成**:RRAM领域有昕原半导体等玩家;MRAM赛道有寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等企业[26] - **国内厂商侧重各异**:致真存储专注于MTJ器件与制造工艺,研制出全球首颗8Mb容量SOT-MRAM芯片;驰拓科技是国内首家实现MRAM量产的企业;凌存科技专注于存储模块开发[27] - **寒序科技的差异化定位**:以MRAM为核心介质构建计算芯片,开辟“磁性计算”新赛道,推动国内MRAM技术从存储替代向计算革新跨越[28][29] 下一代AI推理芯片的竞争格局 - 下一代竞争分水岭在于“谁能率先跨过带宽墙”,主导市场者需在“带宽战争”中沉淀出护城河[35] - 两条突破路径清晰:一是Groq选择的极致SRAM片上集成路径;二是以MRAM为代表的新型存储介质路线,后者更具根本性且符合长期成本与供应链安全需求[35] - “通用算力+专用引擎”成为行业趋势,英伟达收购Groq整合LPU即是例证。国内AI芯片厂商应加强与在新型介质与架构上有底层创新能力的团队合作[32] - 以MRAM为代表的新型存储已成为后摩尔时代核心焦点,有望成为中国AI芯片产业实现换道超车的关键抓手[33]