Workflow
Engram
icon
搜索文档
从OpenClaw说起:Agentic AI时代CPU价值的回归
半导体行业观察· 2026-03-11 10:00
Agentic AI时代的开启与OpenClaw现象 - 2026年初,一个名为OpenClaw(最初名为ClawdBot/MoltBot)的轻量级AI智能体在Mac Mini上部署并引爆AI圈,其作为24小时私人助理,通过短消息交互执行复杂任务,如编写Bash脚本、调用本地知识库和控制智能家居 [2] - 该智能体的开源、易部署及短消息交互特性使其更贴近用户,并获得了包括AWS、阿里云、火山引擎在内的各大云服务提供商的支持,可能标志着Agentic AI时代的真正开启 [2] AI智能体的定义与核心能力 - AI智能体是能够自主感知环境、进行决策并采取行动以实现特定目标的智能系统,其核心特点在于自主性和为实现目标进行独立决策与多步复杂操作的能力 [5] - 与AI助理和聊天机器人相比,AI智能体在用途上更强调自主和主动执行任务,在功能上能执行复杂多步骤操作、学习适应并独立做出决策 [5] - 实现AI智能体需要具备四大细分能力:感知(接收多模态数据)、规划(拆解并调整复杂目标)、记忆(保存短期与长期信息)以及行动(调用外部工具执行任务) [7] 思维链作为Agentic AI的基石 - 思维链通过引导大模型将复杂任务分解为逻辑步骤来提升回答准确性并减少幻觉,是AI智能体实现自主性的基础 [9][10] - 思维链在智能体中具体发挥四大作用:任务规划与拆解、动态环境中的异常处理、提供决策过程的可解释性与可诊断性,以及实现“推理”与“行动”的协同 [10][11][12][13] - 思维链的实现方式有三种:通过提示词工程进行浅层引导、通过监督微调将逻辑模式内化到模型中,以及通过强化学习在试错中产生逻辑推理能力 [13][14][15][16] - 在思维链推理模式下,CPU负责预处理(如提示词模板化、分词、KV缓存查找)和后处理,而GPU负责核心计算,两者协同工作 [17][19] 检索增强生成与智能体演进 - 检索增强生成作为获取外部知识的途径,与思维链结合解决了思维链自身的三个缺陷:错误传播与幻觉、缺乏外部反馈闭环,以及逻辑与事实未解耦 [20][21][25] - 传统检索增强生成遵循“检索->阅读”的线性流程,模型被动总结资料;而智能体检索增强生成则由模型的思维链驱动,模型自主决定何时及如何检索,形成“思考-行动-感知”的ReAct闭环 [27][30][31] - 在智能体检索增强生成模式下,CPU更深度地参与决策链条,负责向量数据库查询等操作,成为智能体与环境交互的关键渠道 [31][32] Engram:模型内部的知识增强 - Engram是一种条件记忆模块,通过确定性哈希实现静态知识的常数时间查找,并将检索到的记忆与动态推理融合,有效减轻大模型重构静态知识的负担,减少幻觉 [33] - 与外部检索增强生成相比,Engram将知识存储在模型内部,具有极低的查询延迟,擅长处理高频实体和常识性词组,两者互补 [34] - Engram允许将庞大的静态知识表存放在主机内存中,CPU可在GPU推理时异步预取数据,几乎不增加GPU显存占用和延迟,为AI智能体普及提供了高成本效益的路径 [35] - 引入Engram后,CPU在推理过程中的利用率显著提升,不再局限于预处理和后处理,深度参与计算 [35][36] CPU价值的回归与系统优化需求 - Agentic AI的发展本质上是不断提升大模型逻辑推理能力并降低幻觉的过程,而CoT、ReAct检索增强生成和Engram等技术方案都重度依赖于CPU计算,且CPU的参与程度不断提升 [37] - 在典型的智能体应用中,CPU侧执行的任务可能成为系统延迟的关键,例如在SWE-Agent中,Bash/Python调用占延迟可达78.7% [37] - Agentic AI对CPU提出了新的要求:需要高并发能力以处理大规模检索增强生成任务;需要高效管理大量工具调用进程并保障服务质量;并且依赖于CXL等互连技术来扩展内存、实现内存池化与一致性互连,以支撑“通算超节点”架构 [38][39][40][41] - 从端侧视角看,未来云端协同的AI智能体将强化CPU的中心地位,例如OpenClaw运行在Mac Mini上,端侧模型负责理解用户需求和处理本地任务 [42] 计算范式的迁移与未来展望 - Agentic AI时代的到来,背后是大模型分步逻辑推理能力的成熟和计算范式从绝对的GPU主导向CPU-GPU协同的迁移 [44] - 在此进程中,CPU转变为决策环路中的重要节点,需要从算法层、系统层和硬件层进行协同优化,例如优化检索增强生成与Engram查询效率、实现计算-通信-检索的重叠、以及利用CPU大内存带宽设计分层存储策略 [44][45] - 这反映了在Agentic AI应用特性引导下,CPU算力价值的回归以及CPU与GPU协同并进的系统思维 [44]
Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力
机器之心· 2026-03-02 23:16
行业背景与挑战 - 大模型发展遵循Scaling Law,通过堆砌参数和数据提升性能,但传统稠密模型扩展导致参数与计算量线性绑定,边际收益骤减,甚至出现性能倒退,扩展路径面临瓶颈[2] - 为解耦参数与计算量,业界曾寄望于混合专家模型,但其存在样本效率低、路由负载均衡困难、显存与通信压力大导致推理吞吐量低于稠密模型等代价[2] 技术创新:JTok与JTok-M - 上海交通大学与小红书团队提出全新扩展维度“token-indexed parameters”,通过为每个词元引入调制向量,以查表结合逐元素调制方式提升模型容量,几乎不增加算力和显存开销[3] - JTok模块为静态调制,作为轻量插件挂载于Transformer各层,通过词元ID查表获取调制向量,与MLP残差逐元素相乘,实现无侵入式容量注入,不显著增加浮点运算次数和通信瓶颈[10][11][12] - JTok-M模块为动态调制,引入调制向量池和上下文路由器,根据词元当前隐状态动态选择并融合多个候选向量,实现语义敏感、稀疏激活的上下文感知能力[15][16] - 该技术采用查表式插件与旁路异步调度范式,有效隔离计算与访存压力,训练吞吐损失不到7%,推理吞吐损失控制在7.3%以内,GPU侧几乎无额外显存占用[18] 性能与效率收益 - 在650M至61B模型规模中,JTok-M显著降低损失,并在下游任务大幅提分:MMLU提升4.1个百分点,ARC提升8.3个百分点,CEval提升8.9个百分点[5] - 达到相同性能,JTok-M可直接节省约35%的训练算力需求,该节省比例在不同模型规模和训练预算下均成立[26] - 在1.5B参数的稠密基座模型上,外挂JTok模块后,14项下游任务平均准确率提升4.32个百分点,相对收益近20%,其中通用知识推理任务MMLU提升4.6个百分点,科学常识推理任务ARC-C提升5.8个百分点[36][37] - 在MoE基座模型上,JTok-M提升效果更显著,例如在总参数量3.2B的MoE模型上,平均准确率提升5.59个百分点,科学常识推理任务ARC-C提升7.25个百分点,数学解题任务GSM8K提升6.31个百分点[39] - 在17B总参数量的大型MoE模型上,JTok-M在训练早期即显现优势,最终在MMLU任务上提升约4个百分点,在ARC-C、CEval等任务上提升8-9个百分点[40][44] 对Scaling Law的理论拓展与影响 - JTok-M打破了传统性能与算力的绑定逻辑,将“token-indexed参数”确立为与主干参数、数据量完全正交的第三大模型扩展维度[4][31] - 理论分析表明,JTok-M的新增参数通过有效折扣因子融入Scaling Law框架,使“性能-算力”帕累托前沿曲线整体下移,实现了扩展收益与主干模型规模无关的稳定性[24][25] - 实验证实,固定主干模型与数据量,仅扩展JTok-M自身参数规模,模型验证损失随参数增加近乎线性下降,每翻倍一次参数,测试损失稳定降低约0.0118,展现出清晰可预测的幂律缩放规律,且无性能饱和迹象[29] - 该技术为行业提供了除增加参数、增加数据之外的第三条可扩展路径,使模型容量扩展能够摆脱对计算量的线性依赖,实现低代价的性能提升[33][34] 技术定位与行业比较 - JTok-M与DeepSeek的Engram、Meta的STEM同属通过扩展嵌入参数来提升模型容量的研究方向,但设计哲学不同:JTok-M定位为探索嵌入参数作为正交、独立的扩展维度,彻底解耦模型容量与浮点运算次数[43] - 相较于Engram的静态知识查找机制和STEM的侵入式前馈网络改造,JTok-M采用旁路轻量调制机制,结合了静态词元ID索引与轻量动态路由[43] - 该工作的核心洞察在于系统性证明了词元索引参数同样服从平滑的幂律,并能从根本上优化模型性能与计算的帕累托前沿[43]
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还尴尬
每日经济新闻· 2026-02-13 06:23
公司产品更新与测试 - 公司于2月11日对其旗舰模型进行了灰度测试,在网页端和APP端更新版本,支持最高1M(百万)Token的上下文长度 [1] - 此次更新将上下文长度从去年8月发布的DeepSeek V3.1的128K大幅提升至1M,记者实测可一次性处理超过24万个token的《简爱》小说文档 [1] - 有行业人士认为,此版本类似于“极速版”,可能是牺牲质量换取速度,为2026年2月中旬将发布的V4版本做最后的压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型行为发生变化,例如不再称呼用户设定的昵称而统一称“用户”,思考过程的角色视角和心理描写减少 [4] - 有用户认为模型回复风格变得“说教、居高临下”(被描述为“爹味”),或变得“文绉绉、情绪激动”,类似“青春伤感文学” [4] - 也有用户反馈模型变得“客观和理性”、“更像人了”,更在意提问者的心理状态而非问题本身 [5] 技术架构与研发进展 - 公司模型迭代路径清晰:V系列定位为追求极致综合性能的基础模型,2024年12月推出V3确立基础,随后快速迭代发布强化推理与Agent能力的V3.1,并于2025年12月推出最新正式版V3.2及专注于高难度数学和学术问题的V3.2-Speciale [6] - 公司团队今年初发表两篇论文,公开两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价DRAM存储知识以降低长上下文推理成本 [7] - 据科技媒体The Information爆料,公司计划在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,将具备更强的写代码能力 [6]
春节见?DeepSeek下一代模型:“高性价比”创新架构,助力中国突破“算力芯片和内存”瓶颈
硬AI· 2026-02-11 16:40
文章核心观点 - 野村证券认为DeepSeek即将发布的新一代大模型V4,预计不会像V3那样颠覆全球AI价值链或引发算力需求恐慌,但其通过mHC和Engram两项底层架构创新,有望进一步降低训练和推理成本,加速中国AI价值链创新周期,并帮助全球大语言模型和AI应用企业加速商业化进程,缓解资本开支压力[2][3][4][5] 创新技术架构带来性能与成本优化 - 算力芯片和内存是中国大模型的瓶颈,V4引入的mHC和Engram技术从算法和工程层面针对这些硬约束进行优化[7] - mHC全称为“流形约束超连接”,旨在解决Transformer模型层数极深时的信息流动瓶颈和训练不稳定问题,通过让神经网络层间“对话”更丰富灵活并设置数学“护栏”,实验证明采用mHC的模型在数学推理等任务上表现更优[8] - Engram是一个“条件记忆”模块,其设计理念是将“记忆”与“计算”解耦,将静态知识存储在可置于廉价DRAM的稀疏内存表中,推理时快速查找,从而释放昂贵的GPU内存专注于动态计算[11] - 两项技术结合对中国AI发展意义重大:用更稳定的训练流程弥补国产芯片不足,用更聪明的内存调度绕过HBM容量和带宽限制[13] - V4最直接的商业影响是进一步降低大模型的训练与推理成本,成本效益的提升将刺激需求,使中国AI硬件公司受益于加速的投资周期[13] 硬件受益于“加速周期” - 全球主要云服务商正全力追逐通用人工智能,资本开支竞赛远未停歇,因此V4预计不会对全球AI基础设施市场造成去年V3发布时级别的冲击[15] - 全球大模型及应用开发商正背负日益沉重的资本开支负担,V4若能在维持高性能的同时显著降低训练与推理成本,将帮助这些玩家更快地将技术转化为收入,缓解盈利压力[15][16] - DeepSeek-V3/R1发布一年后,市场格局从“一家独大”走向“群雄割据”,其“算力管理效率”叠加“性能提升”曾加速中国LLM与应用发展并改变全球与中国竞争格局,推动开源模型更受关注[16][18] - 2024年底,DeepSeek的两个模型曾占据OpenRouter上开源模型Token使用量的一半以上,但到2025年下半年,随着更多玩家加入,其市场份额已显著下降[18] 软件或迎来“增值而非被替代” - 在应用侧,更强大、更高效的V4将催生更强大的AI智能体[20] - 像阿里通义千问App等,已经能够以更自动化的方式执行多步骤任务,意味着AI智能体正从“对话工具”转型为能处理复杂任务的“AI助手”[21] - 这些能执行多任务的智能体需要更频繁地与底层大模型交互,将消耗更多的Token,进而推高算力需求[21] - 模型效能的提升不仅不会“杀死软件”,反而为领先的软件公司创造了价值,需要关注那些能率先利用新一代大模型能力打造出颠覆性AI原生应用或智能体的软件公司,其增长天花板可能因模型能力的飞跃而被再次推高[22]