DualPath推理系统方案 - 财报，业绩电话会，研报，新闻

DualPath推理系统方案

搜索文档

36氪· 2026-02-27 17:09

文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案，旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制，聚合所有存储网卡带宽，重新分配网络负载，基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中，该系统将离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍，并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - **智能体I/O瓶颈凸显**：随着智能体应用普及，多轮推理导致上下文跨轮累积到极长长度，由于KV缓存命中率高达95%以上，加载效率取代计算成为性能主导因素 [3] - **传统设计成本高昂**：现有系统采用预填充-解码分离和外部KV缓存存储架构，但预填充引擎存储网卡带宽持续饱和，解码引擎带宽大量闲置，这种不平衡暴露了根本性低效，单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - **核心洞察**：打破“KV缓存加载必须以预填充为中心”的传统设计，增加存储到解码路径，将KV缓存先加载至空闲的解码引擎，再通过RDMA高效传输给预填充引擎 [5] - **三大核心组件**： - **推理引擎**：作为基础执行单元，每个引擎管理一个GPU，明确区分为预填充引擎和解码引擎 [6] - **流量管理器**：内嵌于每个引擎，统筹所有数据移动，采用以计算网卡为中心的流量管理策略，确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - **请求调度器**：作为中央决策单元，接收客户端请求并智能分发，动态决策每条请求采用传统路径还是新型路径，实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - **具体实现**：在每个引擎预留DRAM作为缓冲区，数据传输采用分层流式方式，以缓解HBM容量压力并实现计算与通信的重叠 [9] - **系统无新增瓶颈验证**：通过建立流量模型进行系统性分析，在典型配置及可行的预填充/解码节点比例区间内，计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - **落地面临的三大挑战及对策**： - **细粒度数据传输**：通过分层流式执行解决 [11] - **流量隔离**：采用以计算网卡为中心的流量管理机制，利用硬件QoS能力进行优先级隔离，例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道，KV传输映射到低优先级通道 [11][12] - **动态负载均衡**：采用两级自适应调度机制，在引擎间和引擎内实现负载均衡，避免资源过载 [12] 性能评估结果 - **吞吐量显著提升**：在DeepSeek V3.2 660B模型上，DualPath相较于内部基线推理框架最高实现1.87倍加速，性能接近假设零I/O开销的理论上限 [13] - **在线服务表现优异**：在智能体请求到达速率上显著优于基线，在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - **负载均衡改善**：调度算法将存储网卡负载均衡指标从1.53优化至1.18，并将注意力层最大/平均执行时间比控制在1.06以内，减少了GPU空闲气泡 [17] - **大规模可扩展性验证**：离线推理从2P4D扩展到48P96D实现近线性扩展，任务完成时间基本保持一致；在线服务中，44P88D配置在保持相似延迟的同时，将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - **行业影响**：该方案为业界处理大规模智能体推理任务提供了新的思路，是解决KV缓存I/O压力的一个值得关注的方向 [19] - **未来方向**：研究团队指出，下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法，例如模拟器或在线调整机制 [19]

Seek .(US:SKLTY)

大语言模型推理

智能体应用

Artificial Intelligence

DualPath推理系统方案

大语言模型推理

智能体应用

Artificial Intelligence

DualPath推理系统方案