Agentic Engineering - 财报，业绩电话会，研报，新闻

Agentic Engineering

搜索文档

虎嗅APP· 2026-03-17 08:08

DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本，公司选择不急于发布半成品，而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚，不会草率发布[7] - 外媒报道V4将是架构级重构，包含1万亿参数、百万上下文、原生多模态，并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统，旨在从模型架构内部实现持久化记忆，让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷，而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”，正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时，对上下文的理解和记忆能力已成为决定其可用性的底线，而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件，存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平，且需通过上下文窗口注入，会带来高昂的token成本，模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身，开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识，调用时不占用上下文窗口容量，也不增加推理计算成本，且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式，直接进入“原生记忆”时代，解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷：压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时，会丢失对话脉络、推理链条等关键信息，且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系，可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限，核心记忆文件有字符数限制，日志记忆的检索质量则依赖模型自身判断，容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口，导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示，所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%，意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为，当前AI与真正智能的鸿沟在于学习能力，而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈，并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**：公司目前仍是纯文本模型，缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色，但仅是“图像→文本”的单向转换，与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代，证明了多模态的巨大潜力[43] - **智能体能力**：行业正迈向智能体时代，竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**：在SWE-bench Verified基准上，公司V3.2得分73.1%，低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上，V3.2得分40.9%，远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”，要求AI能独立完成工程级任务[49] - **AI搜索能力**：公司的搜索能力是短板，且结果经常出现幻觉[51] - Vectara测试显示，R1的幻觉率高达14.3%，是V3的3.9%的近四倍[52] - 在学术引用检索测试中，其错误率高达91.43%，包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代，可靠的搜索是必选项而非加分项[55]