公司研究:DeepSeek最新动态 - 公司团队联合北京大学、清华大学发布了一篇关于提升大模型推理速度的学术论文,而非发布备受期待的新一代旗舰模型DeepSeek V4 [2][4] - 论文提出名为DualPath的创新推理系统,通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,以优化智能体工作负载下的大模型推理性能 [4] - 该系统将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍 [4] - 该研究旨在解决大模型作为智能体执行任务时,因频繁从硬盘读取历史上下文的KV-Cache而导致速度被“数据读取”拖慢的核心问题,通过利用闲置的带宽资源来提升速度 [4][5] - 有行业观点认为,此类工程优化在降低成本、降低token费用方面具有价值,是AI走向大规模使用的关键 [6] - 关于DeepSeek V4的发布时间传闻多变,从最初传闻的2月春节前后,到外媒报道的“最快下周”,再到业内人士预测的3月前后 [6] - 近期有网络爆料称,公司正在测试代号为“Sealion-lite”的V4 Lite模型,上下文窗口为100万tokens,并原生支持多模态推理 [6] - 有消息提及,公司已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,但英伟达等厂商尚未获得类似权限 [6] - 面对市场传闻,公司保持一贯沉默,未进行任何回应 [6] 行业趋势:大模型应用演进与系统优化 - 大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [4] - 应用范式的转变推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮 [4] - 在智能体场景下,上下文会跨轮次累积,最终长度可能达到极值,导致模型需要频繁从硬盘读取历史上下文的KV-Cache,而非进行大量计算 [4] - 现有推理系统中,负责预处理的引擎网卡带宽被占满,而负责生成内容的解码引擎网卡带宽基本闲置,导致整个系统速度受限 [4] - 部分投资机构担忧,新一代模型的发布可能如同去年版本发布时那样,引发市场的剧烈震荡 [6]
DeepSeek又一论文上新