Seek .-DeepSeek发布下一代技术，北大实习生立功

文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案，旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制，聚合所有存储网卡带宽，重新分配网络负载，基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中，该系统将离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍，并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - 智能体I/O瓶颈凸显：随着智能体应用普及，多轮推理导致上下文跨轮累积到极长长度，由于KV缓存命中率高达95%以上，加载效率取代计算成为性能主导因素 [3] - 传统设计成本高昂：现有系统采用预填充-解码分离和外部KV缓存存储架构，但预填充引擎存储网卡带宽持续饱和，解码引擎带宽大量闲置，这种不平衡暴露了根本性低效，单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - 核心洞察：打破“KV缓存加载必须以预填充为中心”的传统设计，增加存储到解码路径，将KV缓存先加载至空闲的解码引擎，再通过RDMA高效传输给预填充引擎 [5] - 三大核心组件： - 推理引擎：作为基础执行单元，每个引擎管理一个GPU，明确区分为预填充引擎和解码引擎 [6] - 流量管理器：内嵌于每个引擎，统筹所有数据移动，采用以计算网卡为中心的流量管理策略，确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - 请求调度器：作为中央决策单元，接收客户端请求并智能分发，动态决策每条请求采用传统路径还是新型路径，实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - 具体实现：在每个引擎预留DRAM作为缓冲区，数据传输采用分层流式方式，以缓解HBM容量压力并实现计算与通信的重叠 [9] - 系统无新增瓶颈验证：通过建立流量模型进行系统性分析，在典型配置及可行的预填充/解码节点比例区间内，计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - 落地面临的三大挑战及对策： - 细粒度数据传输：通过分层流式执行解决 [11] - 流量隔离：采用以计算网卡为中心的流量管理机制，利用硬件QoS能力进行优先级隔离，例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道，KV传输映射到低优先级通道 [11][12] - 动态负载均衡：采用两级自适应调度机制，在引擎间和引擎内实现负载均衡，避免资源过载 [12] 性能评估结果 - 吞吐量显著提升：在DeepSeek V3.2 660B模型上，DualPath相较于内部基线推理框架最高实现1.87倍加速，性能接近假设零I/O开销的理论上限 [13] - 在线服务表现优异：在智能体请求到达速率上显著优于基线，在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - 负载均衡改善：调度算法将存储网卡负载均衡指标从1.53优化至1.18，并将注意力层最大/平均执行时间比控制在1.06以内，减少了GPU空闲气泡 [17] - 大规模可扩展性验证：离线推理从2P4D扩展到48P96D实现近线性扩展，任务完成时间基本保持一致；在线服务中，44P88D配置在保持相似延迟的同时，将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - 行业影响：该方案为业界处理大规模智能体推理任务提供了新的思路，是解决KV缓存I/O压力的一个值得关注的方向 [19] - 未来方向：研究团队指出，下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法，例如模拟器或在线调整机制 [19]