AI推理
搜索文档
英伟达正在憋芯片大招
半导体行业观察· 2026-01-17 10:57
文章核心观点 - 英伟达对Groq和Enfabrica的收购,可能旨在整合其技术以构建下一代AI推理平台,但也可能主要是防御性策略,旨在阻止竞争对手获得关键资产[1][9] - 人工智能推理硬件的发展趋势是,设备正从传统的图形处理单元演变为专为低精度数学运算优化的向量/张量引擎、缓存和互连结构的复杂集合[1] - 英伟达的收购行为可能预示着其未来将推出基于新架构的、更强大的推理机器,而非完全依赖现有GPU架构[9] AI推理硬件竞争格局 - 在AI推理领域,能与英伟达竞争的供应商很少,Groq是其中之一[2] - 市场上获得认可的非GPU AI加速器包括:Cerebras的CS-2晶圆级计算引擎、谷歌的TPU、AWS的Trainium(Inferentia已较少提及)[2] - AMD凭借其数据中心GPU在市场中占据一席之地[2] - 超大规模云服务商和云平台构建商正在创建自己的AI XPU,同时也在使用英伟达和AMD的GPU[5] - 模型构建商如Anthropic承诺使用谷歌的TPU和AWS的Trainium[5] 英伟达收购Groq交易分析 - 交易金额高达200亿美元,英伟达获得了Groq的学习处理单元技术授权,并挖走了其大部分核心工程师,包括联合创始人Jonathan Ross和首席运营官Sunny Madra[3] - 交易前,Groq在2025年9月完成E轮融资7.5亿美元后,估值仅为69亿美元,此前五轮融资总计17.5亿美元[3] - 交易对Groq的估值是其E轮融资后估值的2.9倍,对于投资者而言是一个相当不错的退出价格[5][6] - 收购后,Groq剩余部分将主要专注于GroqCloud服务、大量知识产权,据信已无针对未来LPU或GroqWare产品线的计划[3] - 交易结构上,英伟达选择保留部分股权,以避免给人留下收购整个Groq的印象,这可能是出于对全球反垄断监管的考虑[6] Groq公司背景与交易动机 - Groq由Jonathan Ross联合创立,其完全调度编译器是LPU与谷歌TPU截然不同的关键资产,也是英伟达不想落入对手之手的关键[4] - Groq曾获得沙特阿拉伯承诺的15亿美元投资,用于在达曼建设大型GroqCloud数据中心,但据信该项目尚未启动[3] - 从Groq角度看,当前是推出英伟达GPU替代方案的好时机,因为英伟达GPU功能强大但价格昂贵[3] - Groq的投资者出售股份的动机可能在于,尽管AI推理市场重要,但面对巨头竞争和自身发展不确定性,高溢价出售是理性选择[2][6] 潜在收购方与竞争动态 - 英特尔需要收购AI的未来,尤其是基于推理的未来,传闻其对SambaNova、Groq和Cerebras都感兴趣,但受限于资金短缺[4] - AMD也曾是Groq的潜在收购方,理论上仍有权授权Groq的软件栈及有用的硬件技术[4] - 沙特阿拉伯承诺的15亿美元投资,与OpenAI计划投入约30吉瓦容量(成本估算在1.05万亿至1.5万亿美元)相比规模很小[5] - Groq与沙特的合作承诺规模,比Cerebras与OpenAI刚签署的协议规模小6.7倍,比OpenAI计划构建的规模小三个数量级[5] Enfabrica收购与技术潜力 - 英伟达收购Enfabrica,类似Groq收购,可能预示着架构改变,也可能只是技术融合的伪装或防御性策略[8] - Enfabrica的“Millenium”ACF-S芯片将扩展内存和主机I/O集成到单个芯片上,旨在取代网卡、PCI-Express交换机、CXL交换机等[8] - 其首款产品基于CXL技术的SuperNIC,名为Emfasys的内存扩展器,于2025年7月发布[9] - 在四机架GB200 NVL72服务器上添加一机架Emfasys,据称可将每个令牌的成本降低一半,使GPU吞吐量翻倍[9] 收购的防御性目的与历史先例 - 收购通常兼具防御和进攻目的,英伟达可能旨在阻止关键资产(如Groq的完全调度编译器)落入竞争对手之手[4][7] - 存在公司被收购后技术被束之高阁的先例,例如IBM在2008年末收购Transitive公司(其QuickTransit模拟器技术),随后在2011年彻底关闭相关业务[7][8] - 英伟达并无必须使用其已获得授权技术的规定,因此Groq和Enfabrica的技术可能被用于未来产品,也可能仅作为防御[7][9]
带宽战争前夜,“中国版Groq”浮出水面
半导体芯闻· 2026-01-16 18:27
文章核心观点 - AI行业的竞争焦点正从单纯的算力规模转向对单位面积带宽的极致追求,以解决大模型推理中的“带宽墙”与“延迟瓶颈”问题 [4] - 英伟达通过斥资200亿美元收购Groq核心技术,并计划在2028年推出集成LPU的Feynman架构GPU,旨在从“算力霸主”向“推理之王”转型 [2] - 中国AI芯片公司寒序科技采用片上MRAM(磁性随机存储器)技术路线,开发超高带宽推理芯片,被视为“中国版Groq”,有望在下一代AI推理芯片的“带宽战争”中实现换道超车 [6][9][35] AI推理的行业趋势与挑战 - 传统GPU架构(如英伟达H100)面向训练与图形渲染设计,在大模型推理的解码阶段存在强序列性、小批量和带宽主导的特征错配,导致算力利用率常低于30% [4][14] - 行业共识认为,大模型推理90%的延迟源于数据搬运,未来推理性能的竞争核心是单位面积带宽与执行范式,而非算力规模 [4][15] - 为应对挑战,行业出现多种技术路径:英伟达计划通过Feynman架构集成Groq LPU;AMD采用3D V-Cache;d-Matrix、SambaNova等公司聚焦流式执行与片上带宽 [2][4] 英伟达的战略布局 - 英伟达以创纪录的200亿美元收购Groq核心技术,是其历史上最大手笔交易,旨在抢跑AI推理市场 [2] - 公司计划在2028年推出新一代Feynman架构GPU,采用台积电A16先进制程与SoIC 3D堆叠技术,核心目的是在GPU内部深度集成Groq的LPU,以攻克推理的“带宽墙”与“延迟瓶颈” [2] 寒序科技的技术与产品 - 公司以“超高带宽推理芯片”为核心产品,采用片上MRAM构建“磁性流式处理架构”,目标是将访存带宽密度提升至0.1-0.3TB/mm²·s [6][12] - 该带宽指标不仅能比肩Groq LPU的0.11 TB/mm²·s,更是英伟达H100(0.002-0.003 TB/mm²·s)的数十倍 [12] - 技术路线选择MRAM而非主流的片外DRAM/HBM或Groq的SRAM方案,MRAM采用1T1M结构,同等条件下存储密度是SRAM的5-6倍,且兼具高速、高密度与非易失性优势 [9][11] - 公司采用“双线布局”:SpinPU-M系列覆盖组合优化与量子启发式计算;本轮融资核心的SpinPU-E系列直指大模型解码阶段加速 [7] 寒序科技的竞争优势 - 核心团队源自北京大学物理学院应用磁学中心,具备从物理、材料、器件到芯片设计、算法的全链条技术把控与跨学科积淀 [16] - 公司是国内首个有能力跑通从物理到算法全链条的交叉团队,拥有深厚的学术积累与工程化落地能力 [16] - 公司前瞻性地在北京市科技计划项目中锁定0.1TB/mm²/s超大带宽流式推理芯片研发,全面对标Groq的技术路线与带宽指标 [7] MRAM技术的优势与战略意义 - **工艺成本优势**:MRAM物理结构使其在国产成熟制程下性能可对标先进制程的SRAM,大幅降低流片与量产成本(单片成本可降至原来的十分之一以下),保障供应链自主可控 [20] - **性能优势**:具备非易失性、高能效、快速启动、低待机功耗和高耐用性,为边缘与云端部署提供极佳能效 [20] - **战略破局价值**:在美国限制内存带宽密度超过2GB/s/mm²的存储器出口背景下,MRAM能基于国产28nm/22nm等成熟制程实现超高带宽,规避对尖端工艺和海外HBM供应链的依赖 [21] - **产业带动作用**:MRAM技术革新能带动磁性材料、磁电子器件、存算一体架构等全产业链突破,为AI算力产业打造自主可控的“第二曲线” [22] 全球及中国MRAM产业生态 - **全球布局**:台积电、三星、英特尔、SK海力士等巨头已将嵌入式MRAM推进到22nm、16nm等节点,并在汽车电子、边缘AI等领域推动商业化落地 [23] - **市场规模**:2024年全球MRAM市场规模估计为42.2亿美元,预计到2034年增长至约847.7亿美元,复合年增长率高达34.99% [30] - **中国厂商格局**:致真存储、驰拓科技、凌存科技等本土厂商主要集中于存储、加密等传统MRAM领域 [27] - **寒序科技的差异化定位**:公司独辟蹊径,以MRAM为核心介质构建计算芯片,开辟“磁性计算”新赛道,推动国内MRAM技术从存储替代向计算革新跨越 [28][29] 未来展望与行业启示 - 下一代AI芯片的竞争分水岭在于“谁能率先跨过带宽墙”,主导者将属于能在“带宽战争”中沉淀出护城河的先行者 [35] - 国内AI芯片厂商应抓住“通用算力+专用引擎”的行业趋势,加强与在新型介质与架构上具备底层创新能力的团队合作,构建差异化竞争力 [32][33] - 寒序科技依托MRAM磁性计算新范式,给出了突破带宽瓶颈的“中国版”实现路径,有望成为中国AI芯片产业换道超车的关键抓手 [33][35]
英特尔副总裁宋继强:AI计算重心正在向推理转移
新浪财经· 2026-01-15 18:41
行业趋势:AI能力与算力需求演进 - AI能力发展正从基础能力大模型向智能体AI演进,更注重提供具体功能以构建工作流 [3][7] - 具身智能作为物理AI的重要形态,将数字世界的智能能力嵌入实体设备与真实世界交互,这类应用多以推理为主 [3][7] - 行业分析机构预示,AI算力需求的重心正从训练向推理转移,这将消耗相应比例的算力 [3][7] 技术架构:异构计算成为核心需求 - 多智能体构建完善工作流并实现多流并行运作,对异构基础设施提出需求 [3][7] - AI Agent的功能支持包含多种模型、调度器及预处理模块,这些模块需不同硬件提供最优能效比与成本经济性支撑 [3][7] - 尽管所有任务均可在CPU上运行,但难以兼顾及时性与功能有效性,因此需高端GPU、中端GPU等多种硬件组合搭配,针对不同规模模型与任务场景实现精准适配 [3][7] 系统构建:灵活异构支持的三层能力 - 上层需构建开放的AI软件栈,屏蔽系统级变化以保障应用投资有效性 [3][7] - 中间系统基础设施需适配中小企业需求,提供友好的服务器设置配置及以太网互联方案 [3][7] - 底层需整合持续演进的多元硬件,包括不同架构的CPU、GPU、NPU、AI加速器及类脑计算设备,通过分层基础设施构建灵活异构系统 [3][7] 应用领域:具身智能机器人的实现与挑战 - 针对具身智能机器人领域,智能任务实现方式从传统分层定制模型到全端到端VLA模型,行业尚未确定最优方案,正处于多元尝试阶段 [4][8] - 传统工业自动控制方案侧重可靠性、实时性与计算精度,而基于大语言模型的方案偏向神经网络解决路径,需差异化计算架构支撑 [4][8] - 可通过CPU实现高速响应、NPU低功耗输出、GPU完成视觉与语言模型识别,依托CPU+GPU+NPU的异构芯片调度不同工作负载 [4][8] 未来展望:具身智能机器人的规模化发展 - 具身智能机器人时代必将到来,也将带来算力和能耗挑战,异构计算正逐渐成为AI基础设施的核心架构 [4][8] - 未来当机器人规模达到百万级,将突破工业场景限制,广泛承载商业化、个人化应用,亟需多智能体系统支撑 [4][8] - 多智能体系统运行于物理AI设备的技术堆栈仍面临诸多挑战,而异构计算是解决系统可信赖问题的关键路径 [4][9]
带宽战争前夜,“中国版Groq”浮出水面
半导体行业观察· 2026-01-15 09:38
AI推理芯片行业趋势:从算力竞赛转向带宽战争 - AI行业竞争焦点正从单纯算力比拼转向对单位面积带宽的极致追求[4] - 大模型推理中90%的延迟源于数据搬运,导致算力利用率常低于30%[4] - 行业共识是通过存储靠近计算、流式执行与片上带宽构建来提升推理效率,AMD、d-Matrix、SambaNova等公司均印证此方向[4] 英伟达的战略布局:收购与架构革新 - 英伟达斥资200亿美元收购Groq核心技术,创公司历史最大交易,旨在抢占AI推理市场[2] - 计划于2028年推出新一代Feynman架构GPU,采用台积电A16制程与SoIC 3D堆叠技术,核心目的是在GPU内部深度集成Groq的LPU(语言处理单元)[2] - 此举旨在解决AI推理中长期存在的“带宽墙”与“延迟瓶颈”,推动公司从“算力霸主”向“推理之王”转型[2] 传统GPU在推理任务中的瓶颈 - 英伟达GPU架构最初为大规模训练与图形渲染设计,强调峰值算力与吞吐能力[14] - 在大模型推理的Decode阶段,GPU性能瓶颈主要来自对外部存储(HBM)和复杂内存层级的高度依赖[14] - 该过程呈现强序列性、小批量和带宽主导特征,与GPU设计初衷错配,导致访存延迟波动、算力难以稳定发挥[14] 寒序科技:中国MRAM推理芯片的开拓者 - 公司源于北京大学物理学院,以“超高带宽推理芯片”为核心产品,被业内视为中国大陆少有的在技术路线层面对标Groq的团队[6] - 采用“双线布局”:SpinPU-M系列磁概率计算芯片覆盖组合优化市场;SpinPU-E磁逻辑计算芯片系列直指大模型推理解码阶段加速[7] - 核心技术路线是片上MRAM(磁性随机存储器),构建超高带宽磁性流式处理架构(MSA)[7][9] - 目标是将访存带宽密度提升至0.1-0.3 TB/mm²·s,比肩Groq LPU(0.11 TB/mm²·s),是英伟达H100(0.002-0.003 TB/mm²·s)的数十倍[12] - 公司是国内首个有能力跑通从物理、材料、器件到芯片设计、算法全链条的交叉团队,拥有“材料-器件-芯片-系统-算法”的全栈攻关能力[16] MRAM技术的优势与战略价值 - **存储密度领先**:MRAM采用1T1M结构,同等芯片面积和工艺节点下,存储密度是SRAM的5-6倍[11] - **工艺成本更低**:MRAM在国产成熟制程(如28nm/22nm)下性能可对标先进制程的SRAM,单片流片成本可降至原来的十分之一以下,保障供应链自主可控[20] - **非易失性与高能效**:断电后数据不丢失,待机功耗接近零,具备快速启动、高耐用性优势,为边缘和云端部署提供极佳能效[20] - **规避技术封锁**:美国出口管制限制内存带宽密度超过2GB/s/mm²的存储器,而HBM产能被海外巨头垄断,Groq的SRAM方案成本极高。MRAM基于成熟制程实现超高带宽,可规避对尖端工艺和海外供应链的依赖[21] - **市场前景广阔**:2024年全球MRAM市场规模估计为42.2亿美元,预计到2034年增长至约847.7亿美元,复合年增长率高达34.99%[30] 国内外MRAM产业发展现状 - **国际大厂积极布局**:台积电、三星、英特尔、SK海力士等已将嵌入式MRAM推进到22nm、16nm等节点。恩智浦、瑞萨电子、GlobalFoundries等已在汽车、工业领域推动MRAM商业化落地[23] - **国内生态初步形成**:RRAM领域有昕原半导体等玩家;MRAM赛道有寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等企业[26] - **国内厂商侧重各异**:致真存储专注于MTJ器件与制造工艺,研制出全球首颗8Mb容量SOT-MRAM芯片;驰拓科技是国内首家实现MRAM量产的企业;凌存科技专注于存储模块开发[27] - **寒序科技的差异化定位**:以MRAM为核心介质构建计算芯片,开辟“磁性计算”新赛道,推动国内MRAM技术从存储替代向计算革新跨越[28][29] 下一代AI推理芯片的竞争格局 - 下一代竞争分水岭在于“谁能率先跨过带宽墙”,主导市场者需在“带宽战争”中沉淀出护城河[35] - 两条突破路径清晰:一是Groq选择的极致SRAM片上集成路径;二是以MRAM为代表的新型存储介质路线,后者更具根本性且符合长期成本与供应链安全需求[35] - “通用算力+专用引擎”成为行业趋势,英伟达收购Groq整合LPU即是例证。国内AI芯片厂商应加强与在新型介质与架构上有底层创新能力的团队合作[32] - 以MRAM为代表的新型存储已成为后摩尔时代核心焦点,有望成为中国AI芯片产业实现换道超车的关键抓手[33]
99%计算闲置?推理时代,存力比算力香
36氪· 2026-01-14 20:12
文章核心观点 - 市场对存储的热情因黄仁勋在CES 2026上关于Rubin架构的演讲而再次推升,该架构相比Blackwell需要搭载更多DDR和NAND,带动存储股价上涨 [1] - 市场关注点已从HBM拓展至DDR、NAND等传统存储领域,供需关系变化推动存储价格全面上涨 [1] - 核心判断:在2026-2027年间,DRAM(含HBM和DDR)、NAND和HDD的需求增长均快于供应增长,存储供需持续紧张,“供不应求”局面将延续至2027年 [2] - 存储厂商在“赚钱周期”倾向于维持供需“紧平衡”以实现收益最大化,而非进行可能导致行业再次低迷的“无序扩产” [4] 传统DRAM市场分析 - **市场格局与涨价驱动**:三大存储原厂(海力士、三星、美光)占据DRAM市场九成以上份额 [6]。DDR5 (16Gb)产品价格从2025年9月初的6美元上涨至31美元,涨幅逾5倍 [7]。涨价主因是供应端产能转向HBM挤压了DDR供应,而需求端因AI从训练转向推理,增加了对CPU侧和CXL“外挂内存”的需求 [9] - **资本开支与产能**:受AI及HBM需求带动,全球核心存储厂商对DRAM的资本开支从2024年开始维持两位数扩张 [9]。三大原厂资本开支重心更多侧重HBM而非传统DDR [10]。三大原厂DRAM合计月产能当前约为160万片,预计到2026年四季度提升至167.5万片 [12]。基于产能、切割良率(85%)及市占率(92.5%)测算,2026年全球DRAM供应量预计近449亿GB [14]。DRAM整体供应量从2024年开始呈现约18%的复合增长,至2027年有望达到530亿GB以上 [15] - **需求测算与增长**:DRAM总需求包括AI服务器中的HBM、DDR以及传统领域(PC、手机、工业等)需求 [17]。AI服务器是带动DRAM周期回暖的主因 [17]。根据黄仁勋CES 2026信息,Rubin架构单CPU搭载DDR容量从Blackwell的500GB提升至1.5TB [20]。假设英伟达CoWoS出货量在2027年扩产至190万片,估算AI服务器对DDR需求量在2026年和2027年分别达到80亿GB和144亿GB以上,同比增速分别为222%和80% [20]。传统领域(手机、PC、工业等)对DRAM需求量预计在2026年和2027年保持约5%的同比增长 [21]。综合测算,2026年和2027年DRAM整体需求量分别为439亿GB和542亿GB,同比增长25%和23% [21] - **供需缺口判断**:从增速看,2026年需求增长25%大于供给增长18%,2027年需求增长23%大于供给增长18.5%,供给增长赶不上需求扩张 [23]。从绝对量看,DRAM供需局面在2026年和2027年将更为紧张,预计2027年供需缺口可能扩大至2%左右 [23] NAND市场分析 - **市场概况与涨价**:NAND在AI服务器中担任“热数据仓库”角色 [25]。NAND Flash (32Gb MLC)产品价格从2025年年初的2.3美元上涨至4.27美元,涨幅达85% [26]。价格上涨分两阶段:上半年因厂商主动减产及政策刺激导致供给收缩;下半年因AI服务器中SSD需求量超预期增加导致“供不应求” [28] - **增量机会**:SSD在AI服务器的增量机会来自两方面:替代交付周期过长(达1年以上)的HDD;以及英伟达Rubin架构创新性加入“推理上下文存储平台(ICMS)”,每个Rubin GPU可拓展16TB的NAND,用于将KV Cache从HBM下沉以降低成本 [29] - **资本开支与供应**:全球NAND行业资本开支相对保守,厂商将更多开支投向DRAM领域 [30]。预计至2027年全球NAND资本开支回升至183亿美元,两年复合增速仅约6% [30]。NAND扩产主要通过增加3D堆叠层数升级现有产线,无需大量新建产线 [32]。当前NAND行业整体月产能约196万片,三大原厂合计产能占比约60% [35]。预计2026年NAND整体产能约2366万片,同比增长4% [35]。随着层数向300层以上突破,预计2026年和2027年单片晶圆生产的NAND量复合增速约12% [37] - **需求测算**:NAND需求来自AI服务器、传统服务器、手机、PC及其他领域 [39]。Rubin带来的增量:结合35万片CoWoS预期及每GPU新增16TB NAND,估算2026年Rubin对NAND需求量达78EB [39]。其他AI服务器需求:以NVL72为例,单台搭载NAND中值850GB,并假设2026年需求增长30%,估算2026年其他AI服务器对NAND需求量超180EB [39]。综合估算,AI服务器对NAND需求量在2026年和2027年分别为258EB和453EB,同比增长116%和77% [40]。手机和PC领域受涨价压力,出货量可能下滑,预计2026年和2027年需求量分别为298EB和187EB,仅微幅增长 [42]。传统服务器需求假设维持10%增长,其他领域复合增长5% [43]。综合估算,NAND整体需求量在2026年和2027年分别为1094EB和1325EB,复合增速近20%,AI服务器将在2027年成为NAND最大下游应用领域 [43] - **供需缺口判断**:从增速看,2026年需求增长18%大于供给增长16%,2027年需求增长21%大于供给增长20% [45]。从绝对量看,NAND在2026-2027年的供需缺口将维持在5-6%左右 [45] HDD市场分析 - **市场定位与成本优势**:HDD在AI数据中心中主要用于“冷存储”,如原始数据存储、AI日志与存档等,因其单位存储成本(TCO)仅为SSD的1/4到1/5 [48]。近线硬盘(NL HDD)是HDD中最大出货品类(占比八成以上),也是AI数据中心冷存储主要需求项 [53]。HDD单位存储成本和生产单EB所需资本开支分别只有SSD的1/4和1/50左右 [51]。HDD交付周期约1年(备货3个月+生产测试6个月),长于SSD的约2个月,部分客户因此“被迫”选择价格更高的SSD [51] - **供需情况**:核心HDD厂商(西部数据、希捷、东芝)对大规模扩产保持克制,希望通过控制供应量维持“紧平衡”以获取更高利润 [53]。HDD产能扩充可通过在硬盘内增加盘片和磁头实现,无需新建产线 [53]。预计NL HDD供应量增速在2026年和2027年分别为29%和19% [53]。结合西部数据预期,预估NL HDD需求量增速在2026年和2027年分别为33%和23% [53]。HDD市场紧张主要受核心厂商主动“控量提价”策略影响 [55]
?AI推理狂潮席卷全球 “英伟达挑战者”Cerebras来势汹汹! 估值狂飙170%至220亿美元
智通财经· 2026-01-14 11:27
公司融资与估值动态 - AI芯片供应商Cerebras Systems Inc正在商讨进行一轮约10亿美元的新融资以支持其与英伟达的长期竞争[1] - 此轮融资前估值定为220亿美元较去年9月融资时的估值大幅扩张170%[1] - 该公司仍计划积极推进在美股的首次公开募股[1] - 另一家AI芯片初创公司Etched在新一轮融资中筹集了约5亿美元估值达到约50亿美元[6] 市场竞争格局 - 英伟达在人工智能芯片领域占据高达90%的市场份额[2][4][7] - Cerebras Systems被视为英伟达在AI芯片领域最强劲的竞争对手之一尤其是在AI推理这一快速增长的细分市场[5] - 谷歌TPU AI算力集群给英伟达带来越来越大的竞争压力[4] - 英伟达通过与非独家授权方Groq达成200亿美元协议并吸纳其团队以及通过AI21 Labs来巩固其AI全栈话语权[4][9][10] 公司技术与产品 - Cerebras Systems采用“晶圆级引擎”架构将整个AI模型放在单个超大芯片上极大提升了推理性能和内存带宽[5] - 其最新的CS-3系统在运行Llama 3 70B推理任务时比英伟达Blackwell架构的B200 AI GPU系统快约21倍同时总体成本和能耗更低[7] - 第三方分析指出在某些模型推理中Cerebras的速度可以达到比GPU快20倍或更多[7] - 该公司的晶圆级架构在处理大型语言模型推理任务时可以实现比传统AI GPU/AI ASIC更强劲的性能密度和能效比例[5][8] - 谷歌最新的TPU v7的BF16算力高达4614 TFLOPS而上一代TPU v5p为459 TFLOPS实现了数量级提升[9] - 谷歌TPU v7针对特定AI应用场景能提供比英伟达Blackwell高出1.4倍的每美元性能[9] 市场趋势与需求 - 超大规模AI推理需求正呈现每六个月翻一番的极速增长趋势[9] - AI推理侧更看重单位token成本、延迟与能效[8] - 当AI推理算力体系成为长期现金成本中心客户更愿意选择更具性价比的AI ASIC加速器例如OpenAI通过谷歌云平台大规模租用TPU以降低推理成本[8] 客户与合作伙伴 - Cerebras Systems向Meta Platforms Inc、IBM以及Mistral AI等大型客户提供远程人工智能计算服务[3] - 该公司在很大程度上依赖总部位于阿布扎比的人工智能公司G42的业务这一深度合作关系已引起美国外国投资委员会的审查[6]
AI推理狂潮席卷全球 “英伟达挑战者”Cerebras来势汹汹! 估值狂飙170%至220亿美元
智通财经· 2026-01-14 10:49
Cerebras Systems新一轮融资与估值 - AI芯片初创公司Cerebras Systems正商讨进行一轮约10亿美元的新融资 以支持其与英伟达的长期竞争并强化其AI算力集群的性价比与能效比 [1] - 此轮融资前估值定为220亿美元 较去年9月约81亿美元的估值大幅扩张170% [1][2] - 公司仍计划积极推进在美股的首次公开募股 [1] Cerebras Systems的公司定位与竞争策略 - 公司首席执行官安德鲁·费尔德曼称其算力硬件运行AI大模型的效率是英伟达系统的数倍 [1] - 公司积极寻求挑战英伟达在AI芯片领域高达90%的市场份额 [1] - 公司向Meta、IBM及Mistral AI等大型客户提供远程AI计算服务 [1] Cerebras Systems的核心技术优势 - 公司采用“晶圆级引擎”架构 将整个AI模型放在单个超大芯片上 极大提升了推理性能和内存带宽 [3] - 该架构避免了GPU集群间的数据拆分和高速通信开销 在处理大型语言模型推理任务时能实现比传统AI GPU/AI ASIC更强劲的性能密度和能效比 [3] - 最新的CS3系统在运行Llama3 70B推理任务时 据称比英伟达Blackwell架构的B200 AI GPU系统快约21倍 同时总体成本和能耗更低 [5] - 第三方分析指出 在某些模型推理中其速度可以达到比GPU快20倍或更多 [5] AI推理市场的竞争格局与趋势 - AI推理市场正快速增长 Cerebras被视为英伟达在该领域最强劲的竞争对手之一 [3] - 超大规模AI推理需求正呈现每六个月翻一番的极速增长趋势 [9] - 客户更看重单位token成本、延迟与能效 更愿意选择更具性价比的AI ASIC加速器 [8] - 谷歌最新的TPU v7在特定AI应用场景下 能提供比英伟达Blackwell高出1.4倍的每美元性能 [9] 英伟达的竞争应对措施 - 英伟达与AI芯片初创公司Groq达成一项200亿美元的非独家授权合作协议 获得其AI推理技术授权 Groq创始人及核心团队将加入英伟达 [2][10] - 此举被视为英伟达通过“硬件技术路线多元化+AI应用生态端到端绑定”来维持其高达90%市场份额的防守/反击策略 [2][9] - 英伟达此前还收购了竞争对手Groq的大部分芯片设计人才 [2] 其他竞争对手动态 - 另一家AI芯片初创公司Etched在新一轮融资中筹集了约5亿美元 估值达到约50亿美元 [4] - 谷歌明确把其最新的TPU v7定位为“为AI推理时代而生” 其BF16算力高达4614 TFLOPS 是上一代TPU v5p的10倍 [8][9] Cerebras Systems面临的潜在挑战 - 公司在很大程度上依赖阿布扎比人工智能公司G42的业务 这一深度合作关系已引起美国外国投资委员会的审查 可能导致其IPO进程受阻 [4] - 公司的技术优势更显著于特定推理场景 在通用计算任务部署、AI训练算子以及CUDA生态兼容性方面 英伟达仍具备很大优势 [5]
AI推理狂潮席卷全球 “英伟达挑战者”Cerebras来势汹汹! 估值狂飙170%至220亿美元
智通财经网· 2026-01-14 10:40
公司融资与估值动态 - Cerebras Systems Inc 正在商讨进行一轮约10亿美元的新融资 以支持其与英伟达的长期竞争 [1] - 此轮融资前估值定为220亿美元 较去年9月约81亿美元的估值大幅扩张170% [1][2] - 公司仍计划积极推进在美国的首次公开募股 [1] 公司技术路线与产品性能 - Cerebras Systems 采用“晶圆级引擎”架构 将整个AI模型放在单个超大芯片上 极大提升了推理性能和内存带宽 [4] - 其最新的 CS‑3 系统在运行 Llama 3 70B 推理任务时 比英伟达 Blackwell 架构的 B200 AI GPU 系统快约21倍 同时总体成本和能耗更低 [6] - 该架构在处理大型语言模型推理任务时 可实现比传统AI GPU/AI ASIC更强劲的性能密度和能效比 在某些模型推理中速度可以达到比GPU快20倍或更多 [4][6] 市场竞争格局 - 英伟达在人工智能芯片领域占据高达90%的市场份额 [1][3] - 除Cerebras外 另一家初创公司Etched在新融资中筹集了约5亿美元 估值达到约50亿美元 [5] - 谷歌最新的TPU v7 在特定AI应用场景下 能提供比英伟达Blackwell高出1.4倍的每美元性能 [11] 行业发展趋势与竞争动态 - AI推理需求正呈现每六个月翻一番的极速增长趋势 [11] - 英伟达与AI芯片初创公司Groq达成了一项200亿美元的非独家授权合作协议 以获得其AI推理技术 交易完成后Groq创始人及核心研发团队将加入英伟达 [3][12] - 谷歌明确把其最新TPU代际Ironwood定位为“为AI推理时代而生” 强调性能、能效与性价比 [10] 公司业务与客户 - Cerebras Systems 向Meta Platforms Inc、IBM以及Mistral AI等大型客户提供远程人工智能计算服务 [2] - 公司在很大程度上依赖总部位于阿布扎比的人工智能公司G42的业务 这一深度合作关系已引起美国外国投资委员会的审查 [5] 技术路线对比 - Cerebras的晶圆级架构优势显著于特定推理场景 在通用计算任务部署、AI训练算子以及CUDA生态兼容性方面 英伟达仍具备很大优势 [7] - 英伟达通过“多架构AI算力+巩固CUDA生态+引进更多AI芯片设计人才”来维持其市场主导权 [3] - 谷歌TPU属于AI ASIC技术路线 OpenAI通过谷歌云平台大规模租用TPU的核心动机之一是降低AI推理成本 [10]
SRAM,取代HBM?
36氪· 2026-01-12 14:12
文章核心观点 - 英伟达收购Groq事件引发了关于SRAM与HBM在AI推理时代技术路径的行业辩论,核心在于探讨不同存储技术在AI不同阶段(训练与推理)的适用性及未来共存格局,而非简单的替代关系[1][19] SRAM与HBM的技术特性对比 - **SRAM(静态随机存取存储器)**:速度极快(纳秒级,典型访问延迟约1ns),但容量小(几百MB),集成在处理器核心旁,无需刷新,访问确定性强,形象比喻为“衬衫口袋”[1][9] - **HBM(高带宽存储器)**:本质是3D堆叠的DRAM,容量大(几十GB),带宽极高,但访问延迟较高(典型约100ns),存在物理延迟,形象比喻为“大型仓库”[2] AI训练与推理阶段对存储的不同需求 - **AI训练阶段**:模型参数巨大(百亿至千亿级),计算强度高,数据复用率高,批处理(Batch Size)大,核心需求是容量第一、带宽第二,对延迟不敏感,是HBM的舒适区[3] - **AI推理阶段(特别是实时交互场景)**:延迟成为生命线,常为单次请求处理(Batch Size = 1),传统GPU依赖HBM频繁加载权重会引入数百纳秒延迟,导致性能剧烈下滑和不可预测性[4][6] Groq的LPU架构与SRAM优势 - **架构核心**:完全抛弃HBM作为主存,改用数百MB的片上SRAM存放模型权重,实现权重常驻[9] - **性能数据**:片上SRAM访问延迟仅为HBM的几分之一,片上带宽高达80TB/s[9] - **确定性优势**:SRAM提供确定性的低延迟(“每次都一样快”),这对自动驾驶、工业控制、金融风控等对延迟波动敏感的关键任务至关重要[14] - **案例表现**:在阿贡国家实验室的核聚变反应堆预测任务中,Groq架构在0.6ms内完成19.3万次推理,比NVIDIA A100性能高出600多倍[14] - **并行处理**:通过独特的同步计算与通信方法,高效利用指令级、内存级和数据级并行,支持Batch Size = 1的高性能处理,减少等待并提升准确性[10][11] SRAM作为主存的挑战与历史背景 - **历史定位**:SRAM长期仅作为缓存使用,过去无人将其作为主内存,原因在于其面积大、成本高、工艺缩放慢[8] - **缩放挑战**:在台积电5nm到3nm工艺演进中,逻辑晶体管缩小约1.6倍,而SRAM单元面积仅缩小约5%,导致其在芯片上占用面积比例增大、成本飙升[8] - **Groq的逆向思维**:利用先进制程下SRAM的高开关速度和确定性,在成熟节点(如14nm/7nm)设计,并计划向4nm/GAA架构演进,利用其改善的读写稳定性[9] 英伟达的视角与战略布局 - **黄仁勋的观点**:承认若一切能装入SRAM则无需HBM,但指出这会使模型尺寸缩小约100倍,SRAM存在面积大、成本高的致命伤,让千亿参数大模型完全运行在SRAM上需要成百上千颗芯片,成本与功耗将是天文数字[17] - **强调架构灵活性**:面对MoE、多模态、SSM等不断变化的模型,能够灵活切换压力点(NVLink、HBM或计算单元)的架构才是数据中心总拥有成本的最优解,通用性和灵活性是关键[17] - **收购Groq的战略意义**:旨在补齐“极致低延迟推理”的拼图,而非全面倒向SRAM,英伟达认为数据中心需要在有限的电力资源下优化整体利用率,而非仅为10%的特定任务进行极致优化[17] - **CPX技术的作用**:英伟达的CPX(计算与存储解耦/压缩)技术结合GDDR7或HBM,可在某些场景减少对昂贵HBM的依赖,但也会降低数据中心的灵活性[16][18] 行业未来趋势与投资启示 - **技术共存而非替代**:“SRAM取代HBM”是伪命题,真正的命题是“AI推理如何实现总拥有成本最优解”[19] - **市场分层化**: - 在追求极致速度的边缘侧(如AI眼镜、工业实时控制)和特定高性能推理场景,SRAM将通过ASIC架构蚕食HBM份额[19] - 在大规模数据中心,HBM依然是承载海量模型参数的基石[19] - SSD/NAND将负责模型分发、冷数据与长上下文存储扩展[19] - **投资关注点**:投资者应关注存储层级化带来的全面机遇,而非押注单一技术胜负,快(SRAM)有高成本与低密度的代价,慢(HBM)有高带宽与通用性的平衡,两者将在AI推理领域并肩而行[20]
巨额「收编」Groq,英伟达意欲何为?
雷峰网· 2026-01-12 11:34
文章核心观点 - 英伟达以200亿美元收购推理芯片公司Groq,其核心战略意图是获取其创始人Jonathan Ross及其团队,以及其独创的LPU技术,旨在快速补齐公司在AI推理市场的短板,巩固并扩大其行业主导地位 [2][5][6] 重金收编的核心是什么? - 交易本质是“收购式招聘”的升级版,以技术授权名义实现“人才+技术”双收,用最小监管风险获取核心战略资产 [5] - 支付总额200亿美元中,130亿即时到账,剩余部分包含核心员工股权激励,创始人Jonathan Ross个人获得数亿美元英伟达股权,团队核心成员及芯片设计、编译器开发等核心资产尽数归入英伟达 [5] - 收购的核心人物Jonathan Ross是谷歌初代TPU核心设计者,其创立的Groq所开发的LPU芯片在LLM推理上速度比英伟达GPU快10倍,成本与功耗均仅为1/10 [6] - LPU架构采用全片上SRAM设计,片上带宽达80TB/s,是英伟达Blackwell B300的HBM带宽8TB/s的10倍,旨在消除数据搬运延迟 [6] - 此次收购是英伟达“技术补位+生态垄断”并购战略的延续,其底气来自充沛的现金流,仅2026财年Q3自由现金流就达220.89亿美元 [8] 为什么是Groq? - 全球仅谷歌和Groq两个团队掌握TPU架构技术,收购Groq补齐了英伟达在该技术路线上的短板 [10] - LPU专注于推理场景,其“顺序延迟优先”的技术路线源于Jonathan Ross的TPU开发经验,旨在解决低延迟、高能效、低成本的核心需求 [10] - 实测数据显示,Groq LPU运行Llama 3.3 70B模型时token生成速度达284 tokens/s,首token响应时间仅0.22秒,运行MoE模型时突破460 tokens/s [12] - 极致性能为Groq赢得沙特王国15亿美元的业务承诺资金 [17] - 英伟达现有H200、B300等推理芯片仍是GPU架构改良,未能突破冯·诺依曼架构局限,而谷歌TPU、AMD MI300等竞争对手均在专用推理架构上发力 [17] - 面临Meta、谷歌等大客户寻求算力多元化及Anthropic接入100万个谷歌TPU的竞争压力,收购成为英伟达抢占推理高地、留住客户的最优解 [17] - Groq代表的“去GPU化”技术路线可能颠覆产业,其可重构架构无需CUDA生态,采用GlobalFoundries和三星代工,不占用台积电稀缺的CoWoS产能,大幅降低AI芯片生产门槛 [17] 推理市场变天? - 收购后,英伟达计划将LPU作为专用DAC硬件单元嵌入CUDA生态系统,保持CUDA编程通用性,短期通过NVFusion快速集成,长期在底层架构和编译器层面实现协同设计 [19] - 不同推理场景需求各异,推理芯片架构将呈现多样化趋势 [20] - 业内人士爆料,英伟达下一代Feynman GPU或于2028年集成Groq的LPU单元,采用类似AMD X3D的独立芯片堆叠设计,利用台积电SoIC混合键合技术 [20] - 由于在先进制程上构建SRAM成本高昂,可能将LPU单元堆叠到主Feynman芯片上,利用台积电A16制程的背面供电功能确保低延迟 [21] - 在CUDA生态中集成LPU风格执行面临工程挑战,需要“工程奇迹”来确保LPU-GPU环境充分优化 [21]