大模型推理速度优化 - 财报，业绩电话会，研报，新闻

大模型推理速度优化

搜索文档

每日经济新闻· 2026-02-27 17:06

论文核心成果 - DeepSeek联合北大、清华发布论文，研究方向为提升大模型在实际应用中的推理速度，旨在为复杂的AI智能体提供高效的底层系统解决方案[3] - 论文介绍了一个名为DualPath的创新推理系统，专门针对智能体工作负载下的大模型推理性能进行优化[3] - 该系统通过引入“双路径读取KV-Cache”机制，重新分配存储网络负载，将离线推理吞吐量最高提升1.87倍，在线服务的每秒智能体运行数平均提升1.96倍[3] 技术背景与问题 - 大模型正从单轮对话机器人和独立推理模型，快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统[3] - 应用范式的转变推动大模型推理工作负载发生重大变革：从传统的人类-大模型交互，转向人类-大模型-环境交互，交互轮次可达数十甚至数百轮[3] - 在智能体任务中，上下文会跨轮次累积，最终长度可能达到极值，此时模型需要频繁从硬盘读取历史上下文的KV-Cache[3] - 现有系统中，负责预处理的引擎网卡带宽被占满，而负责生成内容的解码引擎网卡带宽基本闲置，导致整个系统速度受限[3] 解决方案与价值 - DualPath系统针对智能体工作负载重新设计KV-Cache加载逻辑，解决大模型做智能体任务时速度被“数据读取”拖慢的核心问题[4] - 该方案的核心是把闲置的带宽资源利用起来，相当于给数据读取“多开了一条高速路”，从而实现速度的大幅提升[4] - 这一论文成果延续了DeepSeek一贯的风格，在工程化层面将性能优化推向极致[5] 市场传闻与产品动态 - 关于DeepSeek V4的发布时间，市场传闻从最初传闻的2月春节前后，到外媒最新报道的“最快下周”，再到业内人士预测的3月前后[5] - 外网有网友爆料称，DeepSeek正在测试V4 Lite模型，代号为“Sealion-lite”，上下文窗口为100万tokens，并原生支持多模态推理[5] - 有消息提及，DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权，以支持其优化处理器软件，确保模型在硬件上高效运行，但英伟达等厂商尚未获得类似权限[5] - 2月12日晚，多名用户反馈DeepSeek在网页端和APP端进行了版本更新，支持最高1M（百万）Token的上下文长度，而去年8月发布的DeepSeek V3.1上下文长度拓展至128K[6] 用户反馈与市场环境 - DeepSeek被大量用户吐槽风格突变，“变冷淡”，从原本细腻共情变为不称昵称、文风生硬，共情能力下降，相关话题于2月12日晚登上微博热搜[6] - 作为较早入局国内大模型赛道的玩家，DeepSeek凭借早期技术积累和差异化定位，曾在AI助手市场占据先发优势[6] - 随着字节跳动豆包、百度文心一言、阿里通义千问等巨头产品加速迭代，以及ChatGPT、Claude等海外强敌持续施压，国内AI助手赛道已进入白热化竞争阶段[6]

Seek .(US:SKLTY)

大模型推理速度优化

AI智能体

Artificial Intelligence

Artificial Intelligence

DeepSeek V4

DualPath

DeepSeek又一论文上新

第一财经资讯· 2026-02-27 15:58

公司研究：DeepSeek最新动态 - 公司团队联合北京大学、清华大学发布了一篇关于提升大模型推理速度的学术论文，而非发布备受期待的新一代旗舰模型DeepSeek V4 [2][4] - 论文提出名为DualPath的创新推理系统，通过引入“双路径读取KV-Cache”机制，重新分配存储网络负载，以优化智能体工作负载下的大模型推理性能 [4] - 该系统将离线推理吞吐量最高提升1.87倍，在线服务的每秒智能体运行数平均提升1.96倍 [4] - 该研究旨在解决大模型作为智能体执行任务时，因频繁从硬盘读取历史上下文的KV-Cache而导致速度被“数据读取”拖慢的核心问题，通过利用闲置的带宽资源来提升速度 [4][5] - 有行业观点认为，此类工程优化在降低成本、降低token费用方面具有价值，是AI走向大规模使用的关键 [6] - 关于DeepSeek V4的发布时间传闻多变，从最初传闻的2月春节前后，到外媒报道的“最快下周”，再到业内人士预测的3月前后 [6] - 近期有网络爆料称，公司正在测试代号为“Sealion-lite”的V4 Lite模型，上下文窗口为100万tokens，并原生支持多模态推理 [6] - 有消息提及，公司已在近期将重大更新版本V4向华为等国内厂商提供提前访问权，以支持其优化处理器软件，但英伟达等厂商尚未获得类似权限 [6] - 面对市场传闻，公司保持一贯沉默，未进行任何回应 [6] 行业趋势：大模型应用演进与系统优化 - 大模型正从单轮对话机器人和独立推理模型，快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [4] - 应用范式的转变推动大模型推理工作负载发生重大变革：从传统的人类-大模型交互，转向人类-大模型-环境交互，交互轮次可达数十甚至数百轮 [4] - 在智能体场景下，上下文会跨轮次累积，最终长度可能达到极值，导致模型需要频繁从硬盘读取历史上下文的KV-Cache，而非进行大量计算 [4] - 现有推理系统中，负责预处理的引擎网卡带宽被占满，而负责生成内容的解码引擎网卡带宽基本闲置，导致整个系统速度受限 [4] - 部分投资机构担忧，新一代模型的发布可能如同去年版本发布时那样，引发市场的剧烈震荡 [6]

Seek .(US:SKLTY)

Artificial Intelligence

大模型推理速度优化

Artificial Intelligence

DeepSeek V4

DualPath

Artificial Intelligence

大模型推理速度优化

Artificial Intelligence

DeepSeek V4

DualPath