DeepSeek发布下一代技术,北大实习生立功
Seek .Seek .(US:SKLTY) 36氪·2026-02-27 17:09

文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案,旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制,聚合所有存储网卡带宽,重新分配网络负载,基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中,该系统将离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - 智能体I/O瓶颈凸显:随着智能体应用普及,多轮推理导致上下文跨轮累积到极长长度,由于KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素 [3] - 传统设计成本高昂:现有系统采用预填充-解码分离和外部KV缓存存储架构,但预填充引擎存储网卡带宽持续饱和,解码引擎带宽大量闲置,这种不平衡暴露了根本性低效,单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - 核心洞察:打破“KV缓存加载必须以预填充为中心”的传统设计,增加存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎 [5] - 三大核心组件: - 推理引擎:作为基础执行单元,每个引擎管理一个GPU,明确区分为预填充引擎和解码引擎 [6] - 流量管理器:内嵌于每个引擎,统筹所有数据移动,采用以计算网卡为中心的流量管理策略,确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - 请求调度器:作为中央决策单元,接收客户端请求并智能分发,动态决策每条请求采用传统路径还是新型路径,实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - 具体实现:在每个引擎预留DRAM作为缓冲区,数据传输采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠 [9] - 系统无新增瓶颈验证:通过建立流量模型进行系统性分析,在典型配置及可行的预填充/解码节点比例区间内,计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - 落地面临的三大挑战及对策: - 细粒度数据传输:通过分层流式执行解决 [11] - 流量隔离:采用以计算网卡为中心的流量管理机制,利用硬件QoS能力进行优先级隔离,例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道,KV传输映射到低优先级通道 [11][12] - 动态负载均衡:采用两级自适应调度机制,在引擎间和引擎内实现负载均衡,避免资源过载 [12] 性能评估结果 - 吞吐量显著提升:在DeepSeek V3.2 660B模型上,DualPath相较于内部基线推理框架最高实现1.87倍加速,性能接近假设零I/O开销的理论上限 [13] - 在线服务表现优异:在智能体请求到达速率上显著优于基线,在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - 负载均衡改善:调度算法将存储网卡负载均衡指标从1.53优化至1.18,并将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡 [17] - 大规模可扩展性验证:离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致;在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - 行业影响:该方案为业界处理大规模智能体推理任务提供了新的思路,是解决KV缓存I/O压力的一个值得关注的方向 [19] - 未来方向:研究团队指出,下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法,例如模拟器或在线调整机制 [19]

Seek .-DeepSeek发布下一代技术,北大实习生立功 - Reportify