解耦推理
搜索文档
黄仁勋:英伟达已经从GPU公司演变为“AI工厂”
阿尔法工场研究院· 2026-03-25 10:12
AI工厂操作系统与公司战略演进 - 公司推出名为“Dynamo”的AI工厂操作系统,其核心技术是“解耦推理”,被视为下一次工业革命的工厂操作系统 [1][2] - 公司已从一家GPU公司演变为AI工厂公司,其计算能力分布在GPU、CPU、交换机、网络处理器等部件上,并计划整合Grok芯片,将合适的工作负载放在合适的芯片上运行 [2] - CEO的职责是定义愿景和战略,倾向于选择“极其困难”、“前所未有”并能发挥公司核心优势的领域 [2] AI计算需求与市场分析 - AI计算需求巨大增长,从生成式AI到推理计算,再到智能体计算,所需的计算量在两年内可能增长了上万倍,这驱动了对AI基础设施的巨大需求 [2] - 在回应关于其AI工厂建造成本过高的质疑时,强调不应将工厂的建造成本与AI“代币”的生成成本划等号,投资更高的工厂因效率优势,反而能产生单位成本最低的代币 [2] - 公司是唯一一家与全球所有AI公司合作、提供全栈解决方案、并能在任何云和边缘部署的AI公司,其市场份额正在增加 [4] 重点增长领域与产业展望 - 物理AI是一个价值50万亿美元的巨大产业,公司在此已形成年收入近百亿美元的业务,并正快速增长 [3] - 数字生物学即将迎来“ChatGPT时刻”,未来几年医疗健康行业将因此发生重大转变 [3] - 预测具备高功能证明的机器人产品将在3到5年内普及,并指出中国是微电子、电机、稀土、磁铁等机器人基础组件的全球领导者,全球机器人产业在很大程度上依赖于中国的生态系统和供应链 [4] 技术应用与行业影响 - 高度评价“OpenClaw”等开源智能体项目,认为其重新定义了计算机,是未来个人AI计算机的蓝图 [4] - 智能体将成为获取“工作成果”的关键,企业软件行业将因智能体的广泛使用而获得百倍增长 [4] - 阐述自动驾驶平台战略,即不造车,但为所有汽车制造商提供包括训练、仿真、车载计算机在内的全套技术栈,致力于让“所有会移动的东西”都实现自动化 [4] 行业趋势与人才需求 - 承认某些工作(如人类驾驶)会被AI取代,但认为更多新工作会被创造 [5] - 建议年轻人成为“使用AI的专家”,并强调在AI时代,深度科学、数学和语言技能(如英语)仍然至关重要 [5]
GPU撑不起万亿野心,英伟达正在“格式化”数据中心
虎嗅APP· 2026-03-18 18:57
公司战略与财务展望 - 公司首席执行官在GTC2026主题演讲中阐述了公司在人工智能巨变中保持领先的战略,并预计其Blackwell和Rubin芯片到2027年底将至少创造1万亿美元收入,此前的2026年底预期为5000亿美元,意味着展望期延长一年且总量翻倍 [4] - 公司市值已达44522亿美元,为全球市值最高的公司,超过第二名苹果近1万亿美元 [5] - 公司曾长期专注于GPU市场,后通过每年豪掷5亿美元投资CUDA架构(相当于当时公司总营收的六分之一)并培育开发者生态,成功从“游戏配件商”转型为“AI基座” [5] 新产品与平台发布 - 公司发布了为Agentic AI打造的Vera Rubin平台,并宣布七款新芯片全面投产,这些芯片协同工作可构成强大的AI超级计算机,为AI的大模型预训练、后训练、测试及实时推理等各阶段提供支持 [6] - 新发布的CPU芯片效率是传统机架式CPU的两倍,速度提升50%,采用LPDDR5X内存,拥有最高的单线程性能和单核带宽,公司称其若独立售卖将成为一个价值数十亿美元的业务 [6][7] - 第七颗芯片Groq 3 LPU已开始量产,旨在解决GPU在超高速Token生成上的短板,公司通过软件Dynamo实现“解耦推理”,由Vera Rubin负责推理过程的前半段(预填充和注意力机制),Groq负责后半段(解码和Token生成) [7] - 公司发布了DLSS 5,称这是自2018年推出实时光线追踪以来在计算机图形领域最重大的突破,引入实时神经渲染模型以缩小渲染与现实间的鸿沟 [11][13] 生态构建与合作伙伴 - 公司CUDA架构已建立规模过亿级的计算系统安装基数,遍布各大云厂商和计算机公司的产品和服务 [5] - 阿里巴巴、CoreWeave、Meta和甲骨文等云服务商,以及戴尔、惠普、联想和超威等全球系统制造商将与公司合作部署其新发布的CPU芯片 [7] - 自动驾驶平台新增比亚迪、吉利、五十铃、日产等L4级自动驾驶汽车伙伴,并与ABB、Universal Robots、库卡等企业在工业机器人领域展开合作 [13] - 公司与OpenClaw开发者合作推出NemoClaw软件工具包,通过提供安全基础架构(如沙箱、隐私护栏),使OpenClaw具备企业级应用条件 [10] 行业竞争与市场定位 - 分析指出,公司在CPU和LPU的布局是将竞争从单芯片性能上移到系统架构层面,客观上已正面进入AMD与英特尔在数据中心CPU与异构系统层的主战场 [7][9] - 公司首席执行官强调“每一家公司都需要制定OpenClaw战略”,并将其视为个人人工智能的操作系统,同时预测每一家SaaS公司也将变成AgaaS(智能体即服务)公司 [10] - 分析认为,在Agentic AI时代,公司借助OpenClaw热潮抢占运行时和操作系统级的关键标准位置,通过NemoClaw降低智能体部署门槛并推动其全天候运行,将直接放大推理负载和算力消耗,从而反向强化对GPU、CPU和LPU的长期需求 [11] 技术突破与未来愿景 - 下一代计算架构Feynman(费曼)取得核心突破,公司将联合开发部署在太空的数据中心计算机 [13] - 公司与DeepMind和迪士尼合作研发了一套物理仿真系统,未来迪士尼乐园所有角色都将拥有真正的智能,与游客展开真实互动 [13] - 公司首席执行官将GeForce游戏显卡定位为吸引未来用户的产品,在他们还买不起企业级产品时,游戏显卡是主要的销售产品 [11]
黄仁勋的Token经济学
经济观察报· 2026-03-17 22:23
文章核心观点 - 英伟达CEO黄仁勋在GTC大会的演讲核心并非仅是提出万亿美元的AI基础设施需求预期,而是阐述了一套新的商业逻辑:数据中心正从训练模型的场所转变为生产Token的工厂,这背后是AI推理需求爆发、Token分层定价以及硬件架构革新共同驱动的商业模式变革 [1][4] GTC大会与市场反应 - 2025年3月16日至19日,英伟达在美国圣何塞举行GTC大会,黄仁勋发表超过两小时主题演讲 [2] - 黄仁勋预测,到2027年全球AI基础设施相关需求将达到1万亿美元,并认为实际需求可能更高,产品将供不应求 [2] - 此预测发布后,英伟达美股股价瞬时跳涨超过4% [2] - 然而A股算力产业链股票在次日开盘后集体下跌,天孚通信收盘跌幅超10%,长光华芯收盘跌幅达9.72%,多数龙头股回吐了近5日涨幅 [2] - 市场落差源于时间尺度差异,黄仁勋讲的是未来需求,且下一代Feynman芯片架构要到2028年才上市,同时A股电子板块当时平均市盈率约82倍,市场存在估值担忧 [3] Token工厂:新的商业逻辑 - Token是大语言模型处理信息的基本单位,一个汉字大约对应一到两个Token [6] - AI消耗Token的量级自2022年底ChatGPT上线后经历了数次跳跃:ChatGPT使AI学会生成内容;o1模型使AI学会推理和反思;Claude Code使AI能执行复杂任务,单任务消耗Token量比简单对话多出好几个数量级 [7] - AI工作分为训练和推理两个阶段,过去全球购买GPU主要用于训练,现在重心已向推理转移 [8] - 推理服务商的业务规模过去一年增长了100倍,国内推理服务器在出货金额上占比已接近60% [8] - Token尚未形成统一市场定价体系,黄仁勋提出了未来可能出现的五档分层定价:免费层、中等层(每百万Token约3美元)、高级层(每百万Token约6美元)、高速层(每百万Token约45美元)、顶级层(每百万Token约150美元) [9] - Token价格取决于模型大小、上下文长度和响应速度,顶级层定价对应的是AI能处理此前无法完成的任务,例如一次性读完一整份合同或整个代码库 [9] 数据中心经济模型的变革 - 数据中心受电力限制,在固定功率下,单位电力产出Token最多的运营者生产成本最低 [11] - 黄仁勋展示了一组数据:同一个1吉瓦(GW)的数据中心,使用当前Blackwell架构年营收约300亿美元,换用新一代Vera Rubin架构约1500亿美元,再加上Groq LPU推理加速器后可达约3000亿美元,同一数据中心换设备后营收可相差10倍 [11] - 英伟达2026财年全年营收2159亿美元,其中数据中心业务贡献1937亿美元 [12] - 万亿美元需求预期的逻辑在于:客户现有数据中心未被充分利用,换上新一代设备后,在同等电力条件下可通过生产更多、更贵的Token使收入翻数倍 [12] - 未来企业CEO将密切关注其“Token工厂”的效能,因为这直接关系到收入 [13] - 随着工程师日常广泛使用AI工具,企业为员工使用AI的开销将大到需要单独列预算,黄仁勋预测未来每位工程师入职时获得的年度Token预算金额大约相当于其基础薪资的一半 [13][14][15] 硬件架构:Vera Rubin平台与Groq LPU - GTC大会上正式发布了Vera Rubin平台,这是一个完整的系统而非单一芯片,采用百分之百液冷设计,安装时间从两天压缩到两小时 [17] - Vera Rubin核心机架NVL72集成72颗Rubin GPU和36颗Vera CPU,通过NVLink 6相连,与上一代Blackwell相比,每瓦推理吞吐量最高提升10倍,单Token成本降至十分之一 [17] - 同时发布了全新88核Vera CPU,为AI智能体场景优化,微软CEO确认首批Vera Rubin机架已在Azure上运行 [18] - Vera Rubin在处理高并发Token生成(如每秒超过400个Token)时存在带宽短板,此缺口由Groq公司的LPU技术补足 [19] - Groq LPU与GPU是两种不同的芯片:GPU内存大(如Rubin GPU有288GB)、算力强,适合复杂计算;LPU内存小(仅500MB)但读写速度极快,在生成Token的速度和延迟上远优于GPU [19] - 英伟达通过Dynamo推理调度软件实现“解耦推理”:将需要大量算力和内存的上下文理解交给Vera Rubin处理,将对延迟敏感的Token生成交给Groq LPU,两者通过以太网协同工作,延迟减少约一半 [19] - 这套组合在高速层(45美元/百万Token)和顶级层(150美元/百万Token)实现了相比上一代35倍的性能提升 [20] - 从更长维度看,同一个1GW数据中心,Token生成速率可在两年内从每秒2200万提升到7亿 [20] - 黄仁勋建议客户:若以高吞吐批量推理为主,可完全使用Vera Rubin;若有大量编程、实时交互需求,可将25%的数据中心算力配置Groq LPU [20] - Groq 3 LPU由三星代工,已在量产,预计2025年第三季度出货 [21] 软件生态与未来路线 - 软件方面,英伟达发布了企业级智能体平台NemoClaw,为近期火爆的开源项目OpenClaw增加企业安全层 [21] - OpenClaw在几周内成为GitHub上增长最快的开源项目,黄仁勋将其地位抬升至与Linux同级,称其为智能体计算机的操作系统 [21] - Adobe、Salesforce、SAP等17家企业软件公司已宣布采用英伟达的Agent Toolkit [21] - 路线图方面,英伟达预告了2028年上市的下一代Feynman架构,首次同时支持铜缆和CPO(共封装光学)两种互连方式 [21] - 2025年是CUDA诞生20周年,英伟达目前60%的业务来自全球前五大云服务商,另外40%分布在主权AI、企业、工业、机器人等领域 [21] 其他领域合作 - GTC大会上,英伟达宣布了与Uber、比亚迪、吉利、现代、日产、五十铃在自动驾驶领域的合作 [22] - 受此消息推动,港股汽车板块在3月17日集体走强,吉利汽车盘中一度涨超5%,最终收涨4.55% [22]
英伟达龙虾登场!黄仁勋暴论频出,「人车家天地芯」冲击万亿收入
36氪· 2026-03-17 17:47
文章核心观点 - 英伟达在GTC 2026上宣布其战略重心全面转向智能体(Agentic AI)时代,并发布了专为此设计的Vera Rubin架构及一系列芯片、系统和软件,旨在构建一个从底层硬件到上层应用、从地面到太空的完整智能体生态系统,巩固并扩大其在AI时代的统治地位 [6][8][39][96] 英伟达Vera Rubin架构发布 - 发布专为智能体AI和强化学习时代打造的全新Vera CPU,其效率是传统机架式CPU的两倍,速度提升50% [16] - Vera Rubin架构包含七款芯片:Vera CPU、Rubin GPU、NVLink™ 6交换机、ConnectX-9超级网卡、BlueField-4 DPU、Spectrum™-6以太网交换机及新集成的Groq 3 LPU [17] - 包含五套机架系统:Vera Rubin NVL72机架、Vera CPU机架、Groq 3 LPU机架、BlueField-4 STX存储机架及Spectrum-6 SPX以太网机架 [17] - Rubin GPU单片芯片拥有高达288GB的海量内存,用于装载超大语言模型和处理海量上下文KV缓存 [19] - 新一代NVLink带宽翻倍至260TB/s,并推出全新Kyber机架,在一个NVLink域内直接互联144张GPU [20] 智能体操作系统与开源生态 - 黄仁勋判断开源项目OpenClaw将堪比这个时代的Linux或HTML,是一套能调用大模型、管理任务、协调子智能体并进行多模态沟通的智能体操作系统 [28] - 每一家SaaS公司最终都将转变为“智能体即服务”(AgaaS)公司,CEO必须思考自己的OpenClaw战略 [31] - 为解决企业安全顾虑,英伟达联合推出NeMoClaw参考架构,内置OpenShell等技术,让企业能在私有环境中安全运行智能体系统 [33][35] - 英伟达提供一整条开源模型产品线,包括Nemotron(语言推理)、Cosmos(世界建模)、Groot(通用机器人)、Alpha Mayo(自动驾驶)、BioNeMo(数字生物学)、Earth-2(AI物理仿真),并将持续迭代更新 [37] - 宣布与Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Sarvam及Thinking Machines等合作伙伴共同推进Nemotron 4研发 [37] 算力架构创新与性能突破 - 为应对智能体对极致低延迟的需求,英伟达通过Dynamo软件首创“解耦推理”,将推理任务的前段Prefill和Attention交给Vera Rubin处理,后半段Decode卸载给Groq LPU以降低延迟 [24][30] - 在高阶推理层级,这种组合使性能提升35倍,每兆瓦吞吐量也提升35倍 [26] - Grace Blackwell NVLink 72的实际每瓦性能提升达到50倍,远超摩尔定律预期的约1.5倍 [74] - 通过更新算法与软件,Fireworks等服务商的token生成速度从每秒700个跃升至接近5000个,提升7倍 [80] 重塑数据处理与数据中心 - 英伟达发布底层杀器cuDF,用GPU并行算力直接处理结构化数据,绕过传统CPU [59] - 发布针对向量数据库和非结构化数据的cuVS,旨在用AI方式重新定义企业数据处理方式 [61] - 雀巢公司采用英伟达加速的IBM Watsonx.data后,处理全球供应链数据的速度提升5倍,成本降低83% [61] - 英伟达通过深度嵌入云端的算法库,使云服务巨头(Google Cloud、AWS、微软Azure、Oracle)成为其算力和框架的分销渠道 [62] - 发布NVIDIA DSX平台,基于Omniverse数字孪生技术,在虚拟空间中仿真整座AI工厂以优化设计,配合Max-Q技术动态调节功耗与算力 [76][77] 市场前景与收入预测 - 根据黄仁勋判断,到2027年底,其Blackwell和Rubin芯片将至少创造1万亿美元收入,且实际需求可能远超此保守估计 [69] - 高难度推理被视为AI领域最重要且最难的事,因为它直接带来收入增长,英伟达为此彻底改变架构并优化整个技术栈 [71][72] - 未来每一家公司都会认真思考其“token工厂”的效率问题,因为算力即收入本身 [80] 垂直整合与生态构建 - 英伟达自称为世界上第一家“垂直整合,却又水平开放”的公司,向下自造芯片和系统,向上深入理解各行业应用场景 [63][64] - 其业务覆盖金融量化交易、医疗研发、电信边缘计算等多个行业,并通过机密计算技术打消企业数据安全顾虑 [65] - 公司通过将自身封装成底层算法库,像水电一样接入全球基础设施,看似分享利润,实则掌握AI时代命脉 [67] 物理AI与自动驾驶布局 - 黄仁勋宣告自动驾驶的“ChatGPT时刻”已经到来 [85] - RoboTaxi Ready平台新增比亚迪、吉利、五十铃、日产四位伙伴,这四家车企年产量合计约1800万辆,加上已有的梅赛德斯、丰田和通用,覆盖全球重要整车制造商 [86] - 与Uber签署协议,计划将无人出租车部署至多个城市并接入其全球出行网络 [88] - 在工业机器人领域与ABB、Universal Robots、库卡等合作,卡特彼勒的加入意味着重型工程机械走向智能化 [88] 前沿探索与未来愿景 - 英伟达Thor芯片已通过抗辐射认证并应用于卫星,正与合作伙伴研发名为NVIDIA Space-1 Vera Rubin的新型计算机,目标是在太空中建设数据中心 [81] - 与迪士尼、Google DeepMind联合研发的Newton物理引擎,用于在Omniverse中训练机器人(如雪宝),使其适应现实物理规律,未来迪士尼乐园角色将拥有真正智能并与游客互动 [91] - 从游戏显卡到AI算力,英伟达用20年时间“造了一台造风机”,如今已化身为永不停歇的Token生产厂,算力即权力,生态即壁垒 [47][96]
英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
36氪· 2025-11-10 12:11
文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测,这主要得益于推理系统自身的进化,特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池,解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题,实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出,其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前,业界标准是采用“同址部署”方式,即在同一块GPU上执行预填充和解码阶段,并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制:一是预填充和解码阶段的延迟会相互干扰,大型预填充请求可能使TPOT膨胀2到3倍;二是资源分配器需同时满足两种最坏情况的延迟需求,导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池,彻底打破二者干扰,并首次实现独立伸缩,使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳,几乎所有主流大模型推理栈都将其视为默认方案,主要原因包括:企业级应用对延迟控制要求日益严格;模型体量扩大和流量激增需要系统扩展至数百上千张GPU;解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现,可为不同阶段独立分配资源并灵活配合多种并行策略,实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层,NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为预填充/解码解耦而设计,其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层,Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台,芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程,两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦,如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架,将Transformer的注意力模块与前馈层分别放置于不同计算节点,刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸,如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动,实现全局流水线化推理,更适合未来多芯片异构系统 [37][39] - 针对多模态大模型,未来趋势是将推理解耦为多个模态子推理流,再通过调度器进行异步融合;同时,在内存与缓存体系方面,研究如HiKV框架等层级化缓存架构,以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点,是AI走向模块化智能的标志,不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想,如“解耦学习”,将模型学习过程分为多个相互独立的子任务在不同硬件上运行,被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]
AI存储,再度爆火
半导体行业观察· 2025-10-02 09:18
文章核心观点 - AI的飞速发展使存储成为与算力同等重要的关键环节,HBM、HBF和GDDR7三种存储技术正在重新定义AI基础设施的未来格局 [1] - 这三种技术的竞合演进关乎存储产业数千亿美元的市场格局,并决定着人工智能能否突破当前技术天花板,迈向通用人工智能新纪元 [1] - 没有一种存储技术能够包打天下,HBM、HBF、GDDR7在特定领域发挥着不可替代的作用,反映出AI产业对存储需求的多样化和精细化 [23] HBM(高带宽内存)技术发展 - HBM通过3D堆叠技术实现超高带宽存储,已成为决定AI芯片性能上限的关键因素,从H100的80GB容量、3.4TB/s带宽提升到GB300的288GB容量、8.0TB/s带宽,不到三年实现容量超两倍、带宽约2.5倍的提升 [3] - SK海力士凭借技术和市场双重优势稳居霸主地位,已进入HBM4最终测试阶段并向英伟达供应样品,同时宣布完成下一代HBM4内存开发并具备全球首个大规模量产条件 [3] - 三星电子在HBM4性能方面有信心,采用4纳米代工工艺应用于逻辑芯片,但测试进度落后竞争对手约两个月,在快速迭代的AI市场中可能造成致命影响 [3] - HBM正向定制化(cHBM)发展,SK海力士已锁定英伟达、微软、博通等重量级客户开展定制设计,从第七代HBM(HBM4E)开始将全面转向定制化路线 [4] - 定制化HBM的核心在于将基础芯片功能集成进由SoC团队设计的逻辑芯片中,赋予设计人员更大灵活性,可更紧密集成内存与处理器芯片,并根据具体应用优化功耗、性能与面积 [4] - 三星电子发起“背水一战”,在董事长李在镕支持下为HBM业务投入全部精力,正量产HBM4样品,产量约为10,000片晶圆,采用尚未完全成熟的10nm级第六代(1c)DRAM技术 [5][6] - 三星采用激进定价策略,业内估计12层HBM4价格将比HBM3E高出60-70%,但三星正考虑低于20%的溢价,同时加速建设平泽第五工厂配备10纳米第六代DRAM生产线,专门用于批量生产HBM4 [6] HBF(高带宽闪存)技术前景 - HBF是将NAND闪存层叠而成的产品,利用NAND闪存特性实现更大存储容量,试图在带宽与容量之间找到新平衡点,满足AI基础设施对存储需求的指数级增长 [8] - 美国闪存企业Sandisk今年2月宣布正在开发HBF技术,将其定位为“结合3D NAND容量和HBM带宽”的创新产品,能够同时满足带宽、容量、低功耗的综合要求 [8] - HBF技术路线的提出源于AI模型向多模态、长上下文方向发展,需要处理海量中间状态数据,传统DRAM容量扩展成本高,NAND闪存访问速度慢,HBF试图通过架构创新找到最优解 [8] - Sandisk与SK海力士签订开发HBF的谅解备忘录,计划明年下半年向客户提供样本,2027年初为推理AI提供正式产品,此消息推动Sandisk股价从43美元飙升至86美元,翻了一番 [9] - HBF技术实现面临挑战,NAND闪存访问速度远低于DRAM,若CPU将基于NAND的存储当作主存使用,运算速度必然大幅下降,需要能够一次性处理和传输大规模信息的软件和基础设施支持 [9][10] - HBF和HBM并非竞争关系而是互补,HBF更适合需要超大容量的特定应用场景,如视频生成模型Sora需要处理数TB中间数据,HBF通过牺牲部分带宽换取更大容量满足这类需求 [10] - HBF在成本控制方面具有潜在优势,NAND闪存每GB成本远低于DRAM,在需要大容量但对带宽要求相对宽松的应用场景中具有明显经济性 [11] GDDR7技术应用与市场 - 英伟达推出Rubin CPX GPU采用128GB GDDR7显存而非更高端HBM4,体现对AI推理架构的新思考,提出“解耦推理”理念将推理过程拆分为上下文阶段和生成阶段 [13] - 在该架构下,Rubin CPX承担上下文构建任务,GDDR7带宽和延迟已完全足够,生成阶段工作交由配备HBM4的标准Rubin GPU执行,避免资源浪费并优化成本 [13] - HBM在加速器BOM中已成为最昂贵单一组件,从Hopper到Blackwell成本占比不断攀升,合理配置不同类型存储成为优化成本的关键 [13] - 英伟达为RTX Pro 6000下达大量GDDR7订单主要由三星承接,近期要求三星将GDDR7产量翻倍,三星扩大生产设施并增加材料与组件,预计本月启动扩产后的供应链 [14] - 英伟达准备推出代号“B40”新产品搭载三星GDDR7针对中国市场销售,通过降低数据处理能力规避出口限制,预计今年出货量可能达到100万片,仅GDDR7基板需求就高达约2000亿韩元 [14] - GDDR7的采用是成本优化选择,可能成为AI推理普及化的重要推手,通过大幅降低显存在系统总成本中的比重,使更多企业能够负担AI推理基础设施 [15] - 当token成本显著下降,用户对推理需求会激增,需求增长往往远远抵消成本下降影响,推动整个市场规模持续扩大,整体市场对高端HBM需求可能因应用普及而进一步增长 [15] 行业活动信息 - 2025年湾区半导体产业生态博览会(湾芯展)将于10月15—17日在深圳会展中心举办,展会规模扩容50%,展示面积突破60,000平方米,汇聚600+全球头部企业,预计吸引60,000名专业观众 [17] - 湾芯展将重点展示HBM、HBF、GDDR7等前沿存储技术及其在AI算力中心、智能汽车、超算平台中的应用突破,国内外存储巨头与创新企业将带来最新产品与解决方案 [18] - 展会首创“项目采购展”模式和全年服务体系,贯穿展前精准匹配、展中高效对接、展后持续跟进,推动百亿级产业合作落地,助力中国半导体实现从“跟跑”到“领跑”的跨越 [18]
HBM,碰壁了
半导体行业观察· 2025-09-13 10:48
英伟达Rubin CPX GPU架构变革 - 英伟达推出专为长上下文AI工作负载设计的Rubin CPX GPU 采用成本更低的GDDR7内存而非高端HBM方案 颠覆以往AI芯片搭载HBM的惯例 [1][2] - 该芯片定位解耦推理架构中的上下文阶段主力 在NVFP4格式下提供30 PFLOPs算力并搭载128 GB GDDR7显存 而标准版Rubin GPU专注于生成阶段 提供50 PFLOPs FP4算力及288 GB HBM4显存 [3][5] - 整体系统Vera Rubin NVL144 CPX机架计划2026年推出 包含144块Rubin GPU和144块Rubin CPX GPU 性能达8 ExaFLOPs NVFP4 是现役GB300 NVL72的7.5倍 [3][4] HBM与GDDR7的技术经济性对比 - HBM成本高昂且存在带宽闲置问题 在推理任务的预填充阶段因并行度高 其额外带宽未被充分利用 而解码阶段才真正需要高带宽 [8][11] - GDDR7在预填充阶段带宽和延迟已足够 配合HBM在生成阶段的分工 既保障性能又降低系统总成本 使显存成本占比大幅下降 [9] - 选择GDDR7可降低预填充与token的单位成本 可能刺激推理需求增长 进而反向推动解码阶段对HBM带宽的更高需求 [9] 内存供应链格局变化 - 英伟达对GDDR7需求激增 要求三星将产量翻倍 三星已完成扩产准备并预计本月启动量产 而SK海力士和美光产能更多锁定HBM订单 [10] - 针对中国市场的新产品"B40"将搭载三星GDDR7 预计年出货量达100万片 仅GDDR7基板需求约2000亿韩元 整体订单规模或达数万亿韩元 [12] - 三星凭借GDDR7订单巩固图形DRAM市场地位 并积极争取HBM4供应资格 计划用1c存储单元技术实现反超 [12] HBM技术发展持续 - SK海力士宣布完成全球首款HBM4开发并做好量产准备 强调通过性能、功耗和可靠性优势保持AI存储器领域领先地位 [13] - 行业仍持续追求性价比优化 HBM4被视为新里程碑 但巨头竞争焦点同时涵盖高端HBM和成本更优的替代方案 [13]