Workflow
DualPath推理系统方案
icon
搜索文档
DeepSeek发布下一代技术,北大实习生立功
36氪· 2026-02-27 17:09
文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案,旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制,聚合所有存储网卡带宽,重新分配网络负载,基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中,该系统将离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - **智能体I/O瓶颈凸显**:随着智能体应用普及,多轮推理导致上下文跨轮累积到极长长度,由于KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素 [3] - **传统设计成本高昂**:现有系统采用预填充-解码分离和外部KV缓存存储架构,但预填充引擎存储网卡带宽持续饱和,解码引擎带宽大量闲置,这种不平衡暴露了根本性低效,单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - **核心洞察**:打破“KV缓存加载必须以预填充为中心”的传统设计,增加存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎 [5] - **三大核心组件**: - **推理引擎**:作为基础执行单元,每个引擎管理一个GPU,明确区分为预填充引擎和解码引擎 [6] - **流量管理器**:内嵌于每个引擎,统筹所有数据移动,采用以计算网卡为中心的流量管理策略,确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - **请求调度器**:作为中央决策单元,接收客户端请求并智能分发,动态决策每条请求采用传统路径还是新型路径,实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - **具体实现**:在每个引擎预留DRAM作为缓冲区,数据传输采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠 [9] - **系统无新增瓶颈验证**:通过建立流量模型进行系统性分析,在典型配置及可行的预填充/解码节点比例区间内,计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - **落地面临的三大挑战及对策**: - **细粒度数据传输**:通过分层流式执行解决 [11] - **流量隔离**:采用以计算网卡为中心的流量管理机制,利用硬件QoS能力进行优先级隔离,例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道,KV传输映射到低优先级通道 [11][12] - **动态负载均衡**:采用两级自适应调度机制,在引擎间和引擎内实现负载均衡,避免资源过载 [12] 性能评估结果 - **吞吐量显著提升**:在DeepSeek V3.2 660B模型上,DualPath相较于内部基线推理框架最高实现1.87倍加速,性能接近假设零I/O开销的理论上限 [13] - **在线服务表现优异**:在智能体请求到达速率上显著优于基线,在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - **负载均衡改善**:调度算法将存储网卡负载均衡指标从1.53优化至1.18,并将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡 [17] - **大规模可扩展性验证**:离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致;在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - **行业影响**:该方案为业界处理大规模智能体推理任务提供了新的思路,是解决KV缓存I/O压力的一个值得关注的方向 [19] - **未来方向**:研究团队指出,下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法,例如模拟器或在线调整机制 [19]