解耦推理
搜索文档
英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
36氪· 2025-11-10 12:11
文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测,这主要得益于推理系统自身的进化,特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池,解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题,实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出,其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前,业界标准是采用“同址部署”方式,即在同一块GPU上执行预填充和解码阶段,并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制:一是预填充和解码阶段的延迟会相互干扰,大型预填充请求可能使TPOT膨胀2到3倍;二是资源分配器需同时满足两种最坏情况的延迟需求,导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池,彻底打破二者干扰,并首次实现独立伸缩,使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳,几乎所有主流大模型推理栈都将其视为默认方案,主要原因包括:企业级应用对延迟控制要求日益严格;模型体量扩大和流量激增需要系统扩展至数百上千张GPU;解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现,可为不同阶段独立分配资源并灵活配合多种并行策略,实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层,NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为预填充/解码解耦而设计,其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层,Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台,芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程,两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦,如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架,将Transformer的注意力模块与前馈层分别放置于不同计算节点,刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸,如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动,实现全局流水线化推理,更适合未来多芯片异构系统 [37][39] - 针对多模态大模型,未来趋势是将推理解耦为多个模态子推理流,再通过调度器进行异步融合;同时,在内存与缓存体系方面,研究如HiKV框架等层级化缓存架构,以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点,是AI走向模块化智能的标志,不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想,如“解耦学习”,将模型学习过程分为多个相互独立的子任务在不同硬件上运行,被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]
AI存储,再度爆火
半导体行业观察· 2025-10-02 09:18
文章核心观点 - AI的飞速发展使存储成为与算力同等重要的关键环节,HBM、HBF和GDDR7三种存储技术正在重新定义AI基础设施的未来格局 [1] - 这三种技术的竞合演进关乎存储产业数千亿美元的市场格局,并决定着人工智能能否突破当前技术天花板,迈向通用人工智能新纪元 [1] - 没有一种存储技术能够包打天下,HBM、HBF、GDDR7在特定领域发挥着不可替代的作用,反映出AI产业对存储需求的多样化和精细化 [23] HBM(高带宽内存)技术发展 - HBM通过3D堆叠技术实现超高带宽存储,已成为决定AI芯片性能上限的关键因素,从H100的80GB容量、3.4TB/s带宽提升到GB300的288GB容量、8.0TB/s带宽,不到三年实现容量超两倍、带宽约2.5倍的提升 [3] - SK海力士凭借技术和市场双重优势稳居霸主地位,已进入HBM4最终测试阶段并向英伟达供应样品,同时宣布完成下一代HBM4内存开发并具备全球首个大规模量产条件 [3] - 三星电子在HBM4性能方面有信心,采用4纳米代工工艺应用于逻辑芯片,但测试进度落后竞争对手约两个月,在快速迭代的AI市场中可能造成致命影响 [3] - HBM正向定制化(cHBM)发展,SK海力士已锁定英伟达、微软、博通等重量级客户开展定制设计,从第七代HBM(HBM4E)开始将全面转向定制化路线 [4] - 定制化HBM的核心在于将基础芯片功能集成进由SoC团队设计的逻辑芯片中,赋予设计人员更大灵活性,可更紧密集成内存与处理器芯片,并根据具体应用优化功耗、性能与面积 [4] - 三星电子发起“背水一战”,在董事长李在镕支持下为HBM业务投入全部精力,正量产HBM4样品,产量约为10,000片晶圆,采用尚未完全成熟的10nm级第六代(1c)DRAM技术 [5][6] - 三星采用激进定价策略,业内估计12层HBM4价格将比HBM3E高出60-70%,但三星正考虑低于20%的溢价,同时加速建设平泽第五工厂配备10纳米第六代DRAM生产线,专门用于批量生产HBM4 [6] HBF(高带宽闪存)技术前景 - HBF是将NAND闪存层叠而成的产品,利用NAND闪存特性实现更大存储容量,试图在带宽与容量之间找到新平衡点,满足AI基础设施对存储需求的指数级增长 [8] - 美国闪存企业Sandisk今年2月宣布正在开发HBF技术,将其定位为“结合3D NAND容量和HBM带宽”的创新产品,能够同时满足带宽、容量、低功耗的综合要求 [8] - HBF技术路线的提出源于AI模型向多模态、长上下文方向发展,需要处理海量中间状态数据,传统DRAM容量扩展成本高,NAND闪存访问速度慢,HBF试图通过架构创新找到最优解 [8] - Sandisk与SK海力士签订开发HBF的谅解备忘录,计划明年下半年向客户提供样本,2027年初为推理AI提供正式产品,此消息推动Sandisk股价从43美元飙升至86美元,翻了一番 [9] - HBF技术实现面临挑战,NAND闪存访问速度远低于DRAM,若CPU将基于NAND的存储当作主存使用,运算速度必然大幅下降,需要能够一次性处理和传输大规模信息的软件和基础设施支持 [9][10] - HBF和HBM并非竞争关系而是互补,HBF更适合需要超大容量的特定应用场景,如视频生成模型Sora需要处理数TB中间数据,HBF通过牺牲部分带宽换取更大容量满足这类需求 [10] - HBF在成本控制方面具有潜在优势,NAND闪存每GB成本远低于DRAM,在需要大容量但对带宽要求相对宽松的应用场景中具有明显经济性 [11] GDDR7技术应用与市场 - 英伟达推出Rubin CPX GPU采用128GB GDDR7显存而非更高端HBM4,体现对AI推理架构的新思考,提出“解耦推理”理念将推理过程拆分为上下文阶段和生成阶段 [13] - 在该架构下,Rubin CPX承担上下文构建任务,GDDR7带宽和延迟已完全足够,生成阶段工作交由配备HBM4的标准Rubin GPU执行,避免资源浪费并优化成本 [13] - HBM在加速器BOM中已成为最昂贵单一组件,从Hopper到Blackwell成本占比不断攀升,合理配置不同类型存储成为优化成本的关键 [13] - 英伟达为RTX Pro 6000下达大量GDDR7订单主要由三星承接,近期要求三星将GDDR7产量翻倍,三星扩大生产设施并增加材料与组件,预计本月启动扩产后的供应链 [14] - 英伟达准备推出代号“B40”新产品搭载三星GDDR7针对中国市场销售,通过降低数据处理能力规避出口限制,预计今年出货量可能达到100万片,仅GDDR7基板需求就高达约2000亿韩元 [14] - GDDR7的采用是成本优化选择,可能成为AI推理普及化的重要推手,通过大幅降低显存在系统总成本中的比重,使更多企业能够负担AI推理基础设施 [15] - 当token成本显著下降,用户对推理需求会激增,需求增长往往远远抵消成本下降影响,推动整个市场规模持续扩大,整体市场对高端HBM需求可能因应用普及而进一步增长 [15] 行业活动信息 - 2025年湾区半导体产业生态博览会(湾芯展)将于10月15—17日在深圳会展中心举办,展会规模扩容50%,展示面积突破60,000平方米,汇聚600+全球头部企业,预计吸引60,000名专业观众 [17] - 湾芯展将重点展示HBM、HBF、GDDR7等前沿存储技术及其在AI算力中心、智能汽车、超算平台中的应用突破,国内外存储巨头与创新企业将带来最新产品与解决方案 [18] - 展会首创“项目采购展”模式和全年服务体系,贯穿展前精准匹配、展中高效对接、展后持续跟进,推动百亿级产业合作落地,助力中国半导体实现从“跟跑”到“领跑”的跨越 [18]
HBM,碰壁了
半导体行业观察· 2025-09-13 10:48
英伟达Rubin CPX GPU架构变革 - 英伟达推出专为长上下文AI工作负载设计的Rubin CPX GPU 采用成本更低的GDDR7内存而非高端HBM方案 颠覆以往AI芯片搭载HBM的惯例 [1][2] - 该芯片定位解耦推理架构中的上下文阶段主力 在NVFP4格式下提供30 PFLOPs算力并搭载128 GB GDDR7显存 而标准版Rubin GPU专注于生成阶段 提供50 PFLOPs FP4算力及288 GB HBM4显存 [3][5] - 整体系统Vera Rubin NVL144 CPX机架计划2026年推出 包含144块Rubin GPU和144块Rubin CPX GPU 性能达8 ExaFLOPs NVFP4 是现役GB300 NVL72的7.5倍 [3][4] HBM与GDDR7的技术经济性对比 - HBM成本高昂且存在带宽闲置问题 在推理任务的预填充阶段因并行度高 其额外带宽未被充分利用 而解码阶段才真正需要高带宽 [8][11] - GDDR7在预填充阶段带宽和延迟已足够 配合HBM在生成阶段的分工 既保障性能又降低系统总成本 使显存成本占比大幅下降 [9] - 选择GDDR7可降低预填充与token的单位成本 可能刺激推理需求增长 进而反向推动解码阶段对HBM带宽的更高需求 [9] 内存供应链格局变化 - 英伟达对GDDR7需求激增 要求三星将产量翻倍 三星已完成扩产准备并预计本月启动量产 而SK海力士和美光产能更多锁定HBM订单 [10] - 针对中国市场的新产品"B40"将搭载三星GDDR7 预计年出货量达100万片 仅GDDR7基板需求约2000亿韩元 整体订单规模或达数万亿韩元 [12] - 三星凭借GDDR7订单巩固图形DRAM市场地位 并积极争取HBM4供应资格 计划用1c存储单元技术实现反超 [12] HBM技术发展持续 - SK海力士宣布完成全球首款HBM4开发并做好量产准备 强调通过性能、功耗和可靠性优势保持AI存储器领域领先地位 [13] - 行业仍持续追求性价比优化 HBM4被视为新里程碑 但巨头竞争焦点同时涵盖高端HBM和成本更优的替代方案 [13]