解耦推理 - 财报，业绩电话会，研报，新闻

解耦推理

搜索文档

36氪· 2025-11-10 12:11

文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测，这主要得益于推理系统自身的进化，特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池，解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题，实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出，其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前，业界标准是采用“同址部署”方式，即在同一块GPU上执行预填充和解码阶段，并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制：一是预填充和解码阶段的延迟会相互干扰，大型预填充请求可能使TPOT膨胀2到3倍；二是资源分配器需同时满足两种最坏情况的延迟需求，导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池，彻底打破二者干扰，并首次实现独立伸缩，使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳，几乎所有主流大模型推理栈都将其视为默认方案，主要原因包括：企业级应用对延迟控制要求日益严格；模型体量扩大和流量激增需要系统扩展至数百上千张GPU；解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现，可为不同阶段独立分配资源并灵活配合多种并行策略，实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层，NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一，专为预填充/解码解耦而设计，其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层，Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台，芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程，两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层，几乎所有开源的LLM推理引擎，如SGLang与vLLM，都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦，如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架，将Transformer的注意力模块与前馈层分别放置于不同计算节点，刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸，如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动，实现全局流水线化推理，更适合未来多芯片异构系统 [37][39] - 针对多模态大模型，未来趋势是将推理解耦为多个模态子推理流，再通过调度器进行异步融合；同时，在内存与缓存体系方面，研究如HiKV框架等层级化缓存架构，以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点，是AI走向模块化智能的标志，不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想，如“解耦学习”，将模型学习过程分为多个相互独立的子任务在不同硬件上运行，被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]

半导体行业观察· 2025-10-02 09:18

文章核心观点 - AI的飞速发展使存储成为与算力同等重要的关键环节，HBM、HBF和GDDR7三种存储技术正在重新定义AI基础设施的未来格局 [1] - 这三种技术的竞合演进关乎存储产业数千亿美元的市场格局，并决定着人工智能能否突破当前技术天花板，迈向通用人工智能新纪元 [1] - 没有一种存储技术能够包打天下，HBM、HBF、GDDR7在特定领域发挥着不可替代的作用，反映出AI产业对存储需求的多样化和精细化 [23] HBM（高带宽内存）技术发展 - HBM通过3D堆叠技术实现超高带宽存储，已成为决定AI芯片性能上限的关键因素，从H100的80GB容量、3.4TB/s带宽提升到GB300的288GB容量、8.0TB/s带宽，不到三年实现容量超两倍、带宽约2.5倍的提升 [3] - SK海力士凭借技术和市场双重优势稳居霸主地位，已进入HBM4最终测试阶段并向英伟达供应样品，同时宣布完成下一代HBM4内存开发并具备全球首个大规模量产条件 [3] - 三星电子在HBM4性能方面有信心，采用4纳米代工工艺应用于逻辑芯片，但测试进度落后竞争对手约两个月，在快速迭代的AI市场中可能造成致命影响 [3] - HBM正向定制化（cHBM）发展，SK海力士已锁定英伟达、微软、博通等重量级客户开展定制设计，从第七代HBM（HBM4E）开始将全面转向定制化路线 [4] - 定制化HBM的核心在于将基础芯片功能集成进由SoC团队设计的逻辑芯片中，赋予设计人员更大灵活性，可更紧密集成内存与处理器芯片，并根据具体应用优化功耗、性能与面积 [4] - 三星电子发起“背水一战”，在董事长李在镕支持下为HBM业务投入全部精力，正量产HBM4样品，产量约为10,000片晶圆，采用尚未完全成熟的10nm级第六代（1c）DRAM技术 [5][6] - 三星采用激进定价策略，业内估计12层HBM4价格将比HBM3E高出60-70%，但三星正考虑低于20%的溢价，同时加速建设平泽第五工厂配备10纳米第六代DRAM生产线，专门用于批量生产HBM4 [6] HBF（高带宽闪存）技术前景 - HBF是将NAND闪存层叠而成的产品，利用NAND闪存特性实现更大存储容量，试图在带宽与容量之间找到新平衡点，满足AI基础设施对存储需求的指数级增长 [8] - 美国闪存企业Sandisk今年2月宣布正在开发HBF技术，将其定位为“结合3D NAND容量和HBM带宽”的创新产品，能够同时满足带宽、容量、低功耗的综合要求 [8] - HBF技术路线的提出源于AI模型向多模态、长上下文方向发展，需要处理海量中间状态数据，传统DRAM容量扩展成本高，NAND闪存访问速度慢，HBF试图通过架构创新找到最优解 [8] - Sandisk与SK海力士签订开发HBF的谅解备忘录，计划明年下半年向客户提供样本，2027年初为推理AI提供正式产品，此消息推动Sandisk股价从43美元飙升至86美元，翻了一番 [9] - HBF技术实现面临挑战，NAND闪存访问速度远低于DRAM，若CPU将基于NAND的存储当作主存使用，运算速度必然大幅下降，需要能够一次性处理和传输大规模信息的软件和基础设施支持 [9][10] - HBF和HBM并非竞争关系而是互补，HBF更适合需要超大容量的特定应用场景，如视频生成模型Sora需要处理数TB中间数据，HBF通过牺牲部分带宽换取更大容量满足这类需求 [10] - HBF在成本控制方面具有潜在优势，NAND闪存每GB成本远低于DRAM，在需要大容量但对带宽要求相对宽松的应用场景中具有明显经济性 [11] GDDR7技术应用与市场 - 英伟达推出Rubin CPX GPU采用128GB GDDR7显存而非更高端HBM4，体现对AI推理架构的新思考，提出“解耦推理”理念将推理过程拆分为上下文阶段和生成阶段 [13] - 在该架构下，Rubin CPX承担上下文构建任务，GDDR7带宽和延迟已完全足够，生成阶段工作交由配备HBM4的标准Rubin GPU执行，避免资源浪费并优化成本 [13] - HBM在加速器BOM中已成为最昂贵单一组件，从Hopper到Blackwell成本占比不断攀升，合理配置不同类型存储成为优化成本的关键 [13] - 英伟达为RTX Pro 6000下达大量GDDR7订单主要由三星承接，近期要求三星将GDDR7产量翻倍，三星扩大生产设施并增加材料与组件，预计本月启动扩产后的供应链 [14] - 英伟达准备推出代号“B40”新产品搭载三星GDDR7针对中国市场销售，通过降低数据处理能力规避出口限制，预计今年出货量可能达到100万片，仅GDDR7基板需求就高达约2000亿韩元 [14] - GDDR7的采用是成本优化选择，可能成为AI推理普及化的重要推手，通过大幅降低显存在系统总成本中的比重，使更多企业能够负担AI推理基础设施 [15] - 当token成本显著下降，用户对推理需求会激增，需求增长往往远远抵消成本下降影响，推动整个市场规模持续扩大，整体市场对高端HBM需求可能因应用普及而进一步增长 [15] 行业活动信息 - 2025年湾区半导体产业生态博览会（湾芯展）将于10月15—17日在深圳会展中心举办，展会规模扩容50%，展示面积突破60,000平方米，汇聚600+全球头部企业，预计吸引60,000名专业观众 [17] - 湾芯展将重点展示HBM、HBF、GDDR7等前沿存储技术及其在AI算力中心、智能汽车、超算平台中的应用突破，国内外存储巨头与创新企业将带来最新产品与解决方案 [18] - 展会首创“项目采购展”模式和全年服务体系，贯穿展前精准匹配、展中高效对接、展后持续跟进，推动百亿级产业合作落地，助力中国半导体实现从“跟跑”到“领跑”的跨越 [18]

半导体行业观察· 2025-09-13 10:48

英伟达Rubin CPX GPU架构变革 - 英伟达推出专为长上下文AI工作负载设计的Rubin CPX GPU 采用成本更低的GDDR7内存而非高端HBM方案颠覆以往AI芯片搭载HBM的惯例 [1][2] - 该芯片定位解耦推理架构中的上下文阶段主力在NVFP4格式下提供30 PFLOPs算力并搭载128 GB GDDR7显存而标准版Rubin GPU专注于生成阶段提供50 PFLOPs FP4算力及288 GB HBM4显存 [3][5] - 整体系统Vera Rubin NVL144 CPX机架计划2026年推出包含144块Rubin GPU和144块Rubin CPX GPU 性能达8 ExaFLOPs NVFP4 是现役GB300 NVL72的7.5倍 [3][4] HBM与GDDR7的技术经济性对比 - HBM成本高昂且存在带宽闲置问题在推理任务的预填充阶段因并行度高其额外带宽未被充分利用而解码阶段才真正需要高带宽 [8][11] - GDDR7在预填充阶段带宽和延迟已足够配合HBM在生成阶段的分工既保障性能又降低系统总成本使显存成本占比大幅下降 [9] - 选择GDDR7可降低预填充与token的单位成本可能刺激推理需求增长进而反向推动解码阶段对HBM带宽的更高需求 [9] 内存供应链格局变化 - 英伟达对GDDR7需求激增要求三星将产量翻倍三星已完成扩产准备并预计本月启动量产而SK海力士和美光产能更多锁定HBM订单 [10] - 针对中国市场的新产品"B40"将搭载三星GDDR7 预计年出货量达100万片仅GDDR7基板需求约2000亿韩元整体订单规模或达数万亿韩元 [12] - 三星凭借GDDR7订单巩固图形DRAM市场地位并积极争取HBM4供应资格计划用1c存储单元技术实现反超 [12] HBM技术发展持续 - SK海力士宣布完成全球首款HBM4开发并做好量产准备强调通过性能、功耗和可靠性优势保持AI存储器领域领先地位 [13] - 行业仍持续追求性价比优化 HBM4被视为新里程碑但巨头竞争焦点同时涵盖高端HBM和成本更优的替代方案 [13]

Vera Rubin NVL144 CPX机架

Vera Rubin NVL144 CPX机架