Workflow
DualPath
icon
搜索文档
DeepSeek 有新消息!
每日经济新闻· 2026-02-27 17:06
论文核心成果 - DeepSeek联合北大、清华发布论文,研究方向为提升大模型在实际应用中的推理速度,旨在为复杂的AI智能体提供高效的底层系统解决方案[3] - 论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型推理性能进行优化[3] - 该系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍[3] 技术背景与问题 - 大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统[3] - 应用范式的转变推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮[3] - 在智能体任务中,上下文会跨轮次累积,最终长度可能达到极值,此时模型需要频繁从硬盘读取历史上下文的KV-Cache[3] - 现有系统中,负责预处理的引擎网卡带宽被占满,而负责生成内容的解码引擎网卡带宽基本闲置,导致整个系统速度受限[3] 解决方案与价值 - DualPath系统针对智能体工作负载重新设计KV-Cache加载逻辑,解决大模型做智能体任务时速度被“数据读取”拖慢的核心问题[4] - 该方案的核心是把闲置的带宽资源利用起来,相当于给数据读取“多开了一条高速路”,从而实现速度的大幅提升[4] - 这一论文成果延续了DeepSeek一贯的风格,在工程化层面将性能优化推向极致[5] 市场传闻与产品动态 - 关于DeepSeek V4的发布时间,市场传闻从最初传闻的2月春节前后,到外媒最新报道的“最快下周”,再到业内人士预测的3月前后[5] - 外网有网友爆料称,DeepSeek正在测试V4 Lite模型,代号为“Sealion-lite”,上下文窗口为100万tokens,并原生支持多模态推理[5] - 有消息提及,DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,确保模型在硬件上高效运行,但英伟达等厂商尚未获得类似权限[5] - 2月12日晚,多名用户反馈DeepSeek在网页端和APP端进行了版本更新,支持最高1M(百万)Token的上下文长度,而去年8月发布的DeepSeek V3.1上下文长度拓展至128K[6] 用户反馈与市场环境 - DeepSeek被大量用户吐槽风格突变,“变冷淡”,从原本细腻共情变为不称昵称、文风生硬,共情能力下降,相关话题于2月12日晚登上微博热搜[6] - 作为较早入局国内大模型赛道的玩家,DeepSeek凭借早期技术积累和差异化定位,曾在AI助手市场占据先发优势[6] - 随着字节跳动豆包、百度文心一言、阿里通义千问等巨头产品加速迭代,以及ChatGPT、Claude等海外强敌持续施压,国内AI助手赛道已进入白热化竞争阶段[6]
DeepSeek联合北大、清华发布新论文
财经网· 2026-02-27 16:04
公司技术进展 - DeepSeek团队联合北京大学、清华大学于2月27日发布了一篇聚焦于推理速度的学术论文 [1] - 论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大语言模型推理性能进行优化 [1] - 该系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载 [1] - 该技术将离线推理吞吐量最高提升1.87倍 [1] - 该技术使在线服务的每秒智能体运行数平均提升1.96倍 [1] 行业技术趋势 - 大语言模型推理性能,特别是在智能体工作负载下的优化,是当前重要的研究方向 [1] - 通过优化KV-Cache等底层机制来提升系统效率是行业内的关键技术路径之一 [1]
DeepSeek又一论文上新
第一财经资讯· 2026-02-27 15:58
公司研究:DeepSeek最新动态 - 公司团队联合北京大学、清华大学发布了一篇关于提升大模型推理速度的学术论文,而非发布备受期待的新一代旗舰模型DeepSeek V4 [2][4] - 论文提出名为DualPath的创新推理系统,通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,以优化智能体工作负载下的大模型推理性能 [4] - 该系统将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍 [4] - 该研究旨在解决大模型作为智能体执行任务时,因频繁从硬盘读取历史上下文的KV-Cache而导致速度被“数据读取”拖慢的核心问题,通过利用闲置的带宽资源来提升速度 [4][5] - 有行业观点认为,此类工程优化在降低成本、降低token费用方面具有价值,是AI走向大规模使用的关键 [6] - 关于DeepSeek V4的发布时间传闻多变,从最初传闻的2月春节前后,到外媒报道的“最快下周”,再到业内人士预测的3月前后 [6] - 近期有网络爆料称,公司正在测试代号为“Sealion-lite”的V4 Lite模型,上下文窗口为100万tokens,并原生支持多模态推理 [6] - 有消息提及,公司已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,但英伟达等厂商尚未获得类似权限 [6] - 面对市场传闻,公司保持一贯沉默,未进行任何回应 [6] 行业趋势:大模型应用演进与系统优化 - 大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [4] - 应用范式的转变推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮 [4] - 在智能体场景下,上下文会跨轮次累积,最终长度可能达到极值,导致模型需要频繁从硬盘读取历史上下文的KV-Cache,而非进行大量计算 [4] - 现有推理系统中,负责预处理的引擎网卡带宽被占满,而负责生成内容的解码引擎网卡带宽基本闲置,导致整个系统速度受限 [4] - 部分投资机构担忧,新一代模型的发布可能如同去年版本发布时那样,引发市场的剧烈震荡 [6]
DeepSeek又一论文上新!新模型V4更近了?
第一财经· 2026-02-27 15:01
论文核心成果 - 研究核心为解决大模型在智能体应用场景下的推理速度瓶颈,通过优化底层系统提升效率 [3] - 提出名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型推理性能进行优化 [3] - 系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将闲置的带宽资源利用起来 [4] 性能提升数据 - DualPath系统将离线推理吞吐量最高提升1.87倍 [3] - 系统使在线服务的每秒智能体运行数平均提升1.96倍 [3] 行业应用背景与挑战 - 大模型正从单轮对话机器人快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [3] - 应用范式转变推动推理负载从传统人机交互转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮 [3] - 智能体场景下上下文跨轮次累积,长度可达极值,导致系统频繁从硬盘读取历史上下文的KV-Cache [3] - 现有系统瓶颈在于负责预处理引擎的网卡带宽被占满,而负责生成内容的解码引擎网卡带宽闲置 [3] 技术方案价值 - 解决大模型执行智能体任务时速度被“数据读取”拖慢的核心问题 [4] - 工程化层面的极致性能优化,有助于降低AI使用成本,推动AI走向大规模应用 [5] 市场动态与传闻 - 外界更关注DeepSeek新一代旗舰模型DeepSeek V4的发布,市场传闻发布时间几经更迭,从2月春节前后到“最快下周”,再到3月前后 [5] - 有外网爆料称DeepSeek正在测试代号为“Sealion-lite”的V4 Lite模型,上下文窗口为100万tokens,并原生支持多模态推理 [5] - 有消息提及DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,但英伟达等厂商尚未获得类似权限 [5] - 面对传闻,公司保持一贯沉默,未进行任何回应 [6] - 市场已进入“严阵以待”状态,部分投资机构担忧新一代模型发布可能引发市场剧烈震荡 [6]
美股软件龙头大涨,高盛:软件反弹潮未止!拓维信息涨停,软件ETF汇添富(159590)大涨超2%!黄仁勋重磅发声
新浪财经· 2026-02-27 13:30
美股龙头业绩催化与A股板块联动 - 美股软件龙头赛富时(Salesforce)在发布业绩后股价上涨超过4% [1] - 受此积极情绪带动,A股软件板块在2月27日强势反弹,软件ETF汇添富(159590)当日大涨超过2%,盘中成交额超过5000万元 [1] 软件ETF成分股表现强劲 - 软件ETF汇添富(159590)标的指数的热门成分股多数上涨,其中顺网科技涨幅超过11%,拓维信息涨停,润和软件涨幅超过6%,东方国信、深信服、拓尔思涨幅均超过4% [3] - 根据成分股涨跌幅数据,拓维信息(估算权重4.08%)涨停(涨10.00%),润和软件(估算权重3.84%)上涨6.35%,顺网科技(估算权重1.27%)上涨11.24% [4] 机构观点:行业跌势过度,反弹有望持续 - 多家机构认为软件行业近期跌势过度,后续或将持续反弹 [5] - Main Street Research首席投资官James Demmert认为软件行业近期跌势过度 [5] - 对冲基金GCQ Funds Management宣布软件股的抛售潮已经触底 [5] - 高盛大宗经纪业务部门表示,尽管避险基金对软件与IT服务板块的做空规模已达历史高点,但近期反弹行情仍有望延续 [5] AI发展对软件行业构成支撑而非威胁 - 英伟达黄仁勋表示,市场误判了AI对软件公司的威胁,AI助手不会取代软件工具,而是会反过来使用它们,大批软件公司将使用AI助手来开发软件并提高效率 [5] - 汇丰银行发布报告《软件将吞噬AI》,明确指出软件不仅不会走向消亡,反而是全球最大型企业用来“可控地利用AI的关键途径” [7] - 汇丰认为,企业软件不会受到AI的威胁,相反,AI将被嵌入到软件平台之中,企业真正需要的是可控、可审计、可重复运行的系统能力,而这正是软件平台的强项 [7] - 汇丰指出,像Salesforce、甲骨文(Oracle)、ServiceNow和微软这样的传统软件巨头,拥有深厚的领域专业知识、稳固的销售渠道和客户信任,更有可能编写最好的AI软件 [7] 中国AI模型调用量爆发式增长 - 2月,中国AI模型的调用量爆发式增长,首次超过美国 [5] - 根据OpenRouter数据,在2月9日至15日当周,中国模型调用量为4.12万亿Token,首次超过同期美国模型的2.94万亿Token [5] - 在2月16日至22日当周,中国模型的周调用量进一步冲高至5.16万亿Token,三周内大涨127%,而同期美国模型调用量跌至2.7万亿Token [6] - 全球调用量排名前五的模型中,中国模型占据四席,显示中国AI厂商集群式崛起 [6] 技术进展与新产品发布 - DeepSeek联合北大、清华研究团队提出全新的大模型推理系统DualPath,通过“双路径KV-Cache加载”机制,将Agentic大模型负载的离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍 [6] - 2月26日,科技大厂云码道公测版正式发布,主要为开发者和企业提供具备工程化能力的智能编码解决方案,覆盖代码生成、研发知识问答、单元测试用例生成等多种AI Coding技术 [6] 行业展望:2026年或成软件变现元年 - 汇丰指出,2026年有望成为软件变现的启动点,这也是全球最大型企业消费AI的主要机制,将带动AI推理需求呈现指数级增长 [8] - 汇丰认为,尽管硬件和半导体行业表现一直很好,但软件行业将会更好,因为企业购买的是解决业务问题的方案,而这些方案只能来自无限灵活的软件技术栈 [8] - 软件行业的总潜在市场(TAM)正处于长达5-10年大规模扩张周期的前夜,但市场认知错位导致软件板块的估值目前处于历史低位,汇丰提示现在是建立或扩大软件板块仓位的适宜时机 [8] AI应用展望与行业“K型”分化 - 中邮证券展望2026年AI应用,认为to B端,AI Agent是大模型重要的商业落地形式,已在客服、代码开发、营销等多场景实现落地,并加速向垂直领域专业化发展 [9] - to C端,依托互联网生态快速获客,例如豆包大模型日均使用量已突破50万亿tokens,排名中国第一、全球第三 [9] - 东方证券表示,市场担忧“模型吞噬软件”有一定合理性,但未来行业将呈现“K”型分化 [10] - 缺乏独有数据资源或深度行业Know-How、未形成网络效应的横向软件将面临模型更大的威胁,而拥有独家数据资源、容错率较低或具备监管锁定特征的纵向核心系统则风险较小,更容易依托自身系统叠加AI Agent来满足客户需求 [10] 软件ETF产品特征 - 软件ETF汇添富(159590)标的指数“AI应用”含量为35.22%,“智能体”含量为39.3%,在全市场软件赛道中占比较高 [10] - 该ETF紧跟中证全指软件指数,指数精选50只成分股,全面覆盖基础软件、应用软件、软件服务 [10]
DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
36氪· 2026-02-27 10:29
核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架,旨在解决大模型长文本推理中的I/O瓶颈问题,通过创新的双路径加载和全局资源池化技术,显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式,即KV-Cache的加载不必以预填充引擎为中心,可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式,引入了“存储至解码”的第二条路径,通过利用解码引擎闲置的存储网卡带宽,并配合高速计算网络传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上,系统包含预填充引擎、解码引擎、流量管理器和中央调度器,中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中,DualPath表现惊人:离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下,首字延迟大幅优化,而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明,该框架显著降低了首字延迟,并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中,因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时,推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中,所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和,而解码引擎的存储网卡闲置,造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长,加剧了I/O限制,印证了“计算是免费的,但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径,并利用虚拟层技术为推理通信预留99%带宽,确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器,监控每个节点的磁盘队列长度和Token数,优先将任务分配给I/O压力小且计算负载轻的节点,从根本上避免单点拥塞[14] - 通过层级流式处理,在预填充引擎和解码引擎上分配少量DRAM缓冲区,并设计了精细的数据流,以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生,师从金鑫教授,研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统,该系统服务于十亿级用户,并与VLLM等开源社区紧密合作贡献工业级优化[22]