Seek .-DeepSeek新论文剧透V4新框架，用闲置网卡加速智能体推理性能，打破PD分离瓶颈

核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架，旨在解决大模型长文本推理中的I/O瓶颈问题，通过创新的双路径加载和全局资源池化技术，显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式，即KV-Cache的加载不必以预填充引擎为中心，可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式，引入了“存储至解码”的第二条路径，通过利用解码引擎闲置的存储网卡带宽，并配合高速计算网络传输至预填充引擎，实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上，系统包含预填充引擎、解码引擎、流量管理器和中央调度器，中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中，DualPath表现惊人：离线推理吞吐量提高了1.87倍，在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下，首字延迟大幅优化，而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明，该框架显著降低了首字延迟，并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中，因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时，推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中，所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和，而解码引擎的存储网卡闲置，造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长，加剧了I/O限制，印证了“计算是免费的，但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理，强制所有流量通过配对的CNIC走GPUDirect RDMA路径，并利用虚拟层技术为推理通信预留99%带宽，确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器，监控每个节点的磁盘队列长度和Token数，优先将任务分配给I/O压力小且计算负载轻的节点，从根本上避免单点拥塞[14] - 通过层级流式处理，在预填充引擎和解码引擎上分配少量DRAM缓冲区，并设计了精细的数据流，以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生，师从金鑫教授，研究方向聚焦于系统软件与大模型基础设施，尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组，参与下一代模型的推理基础设施建设，负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统，该系统服务于十亿级用户，并与VLLM等开源社区紧密合作贡献工业级优化[22]