DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
Seek .Seek .(US:SKLTY) 36氪·2026-02-27 10:29

核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架,旨在解决大模型长文本推理中的I/O瓶颈问题,通过创新的双路径加载和全局资源池化技术,显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式,即KV-Cache的加载不必以预填充引擎为中心,可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式,引入了“存储至解码”的第二条路径,通过利用解码引擎闲置的存储网卡带宽,并配合高速计算网络传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上,系统包含预填充引擎、解码引擎、流量管理器和中央调度器,中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中,DualPath表现惊人:离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下,首字延迟大幅优化,而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明,该框架显著降低了首字延迟,并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中,因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时,推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中,所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和,而解码引擎的存储网卡闲置,造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长,加剧了I/O限制,印证了“计算是免费的,但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径,并利用虚拟层技术为推理通信预留99%带宽,确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器,监控每个节点的磁盘队列长度和Token数,优先将任务分配给I/O压力小且计算负载轻的节点,从根本上避免单点拥塞[14] - 通过层级流式处理,在预填充引擎和解码引擎上分配少量DRAM缓冲区,并设计了精细的数据流,以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生,师从金鑫教授,研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统,该系统服务于十亿级用户,并与VLLM等开源社区紧密合作贡献工业级优化[22]