首篇自进化智能体系统技术报告出炉：Token成本直降近10倍，省钱又高效！

文章核心观点 - 文章介绍了全球首个基于“上下文信息密度最大化”原则设计的自进化智能体系统GenericAgent (GA)，该系统通过四大核心机制实现了在保持高任务准确率的同时，显著降低Token消耗和实现经验复用的能力，代表了AI智能体从“一次性工具”向持续学习、自我进化的“数字同事”演进的重要方向 [1][2][18] GA系统概述与市场反响 - GA是由复旦大学知识工场实验室旗下A3实验室与深圳夸夸菁领科技有限公司合作构建的通用型、自进化LLM智能体系统，其商业应用版为DinTal Claw，旨在打造政企场景的“数智员工” [2] - 该系统自2026年1月11日开源后，一度在GitHub Python编程语言趋势榜登顶第一，热度超过OpenAI、Google等头部企业的开源系统 [3] - 截至报告发布，其在GitHub上已获得超过5.2K+ Star，进入趋势榜 [66] 传统智能体的局限与GA的核心设计原则 - 传统智能体面临“上下文爆炸”和“记性差”问题，关键信息易被淹没，且经验无法跨会话积累，导致Token消耗线性增长而能力停滞 [13][15] - GA团队提出核心洞见：长周期性能的决定因素不是上下文长度，而是“上下文信息密度”，即如何在有限预算内维持最多的决策相关信息 [16][17] - 基于“上下文信息密度最大化”原则，GA通过四大紧密关联的机制构建自进化智能体 [18] GA的四大核心机制 - 机制一：最小原子工具集：GA仅保留9个原子工具，涵盖文件、代码、网页、记忆管理和人在回路五类能力，这些工具可组合泛化以解决复杂任务，旨在降低决策成本 [19] - 机制二：分层按需记忆：记忆采用四层架构（L1索引层、L2事实层、L3 SOP层、L4原始会话存档层），默认仅注入元记忆和L1索引，按需检索更深层知识，防止记忆挤占活跃上下文预算 [21][22][27] - 机制三：自进化流程：进化的是解决任务的策略，所有任务特定能力编码在SOP文件和可复用脚本中，通过分层记忆确保知识跨会话可用，进化质量通过显式整合步骤控制 [28][29] - 机制四：上下文截断与压缩：采用四种粒度修剪机制（工具输出截断、标签级压缩、消息驱逐、工作记忆锚点提示词），防止活跃上下文随交互轮数线性增长 [32][33][41] - 在安装20个技能并高强度使用后，GA的完整提示长度仅为2,298个Token，远低于Claude Code的22,821、CodeX的23,932和OpenClaw的43,321个Token，有效防止了上下文膨胀 [34][35] GA的评估结果与性能优势 - 任务完成率领先：在SOP-bench和Lifelong AgentBench基准测试中，GA实现100%准确率；在更贴近真实场景的RealFinBench上，以65%的准确率位列第一 [39] - Token消耗显著降低：在相同任务下，GA的Token消耗仅为主流智能体系统的15%到35% [40] - 在SOP-bench上，使用Claude Sonnet 4.6模型时，GA总消耗2.08M Token（准确率100%），而OpenClaw消耗2.64M Token（准确率100%），Claude Code消耗1.25M Token（准确率85%） [42] - 在Lifelong AgentBench上，GA仅消耗Claude Code输入Token的27.7%和OpenClaw的15.5%，同时实现100%任务完成率 [60] - 自进化能力带来效率跃迁： - 重复执行相同任务时，Token消耗可降低高达89.6% [14] - 5次重复运行后，运行时间从102秒降至66秒，Token消耗从20万降至10万 [43] - 在8个不同网页任务的重复测试中，后续执行的Token消耗平均下降79.3%，最高单任务节省达92.4% [46] - 经过九轮进化，完成同等任务的时间从7分30秒降至1分38秒，LLM调用从32次减至5次（减少84.4%），总Token消耗从222,203降至23,010（减少89.6%） [49][51] - 网页浏览能力突出：在BrowseComp-ZH多跳推理任务中，GA准确率达到0.60，是主流智能体系统0.20的3倍，同时Token消耗仅为其三分之一 [52] 对智能体设计的关键发现 - 发现一：上下文信息密度是每个使用LLM作为推理引擎的智能体系统必须面对的结构性约束，无法规避 [57] - 发现二：在信息密度约束下，智能体只需实现三种核心能力，任何不服务于这些能力的设计都会引入额外复杂度并降低信息密度 [58] - 发现三：更低的Token消耗对应更好的任务性能，违反“更长推理链等于更好结果”的直觉；超过某点后，额外Token会通过位置偏差和注意力稀释降低推理质量 [59][60] - 发现四：智能体的权限定义其能力上限，在探索阶段锁定行动边界等同于预先封顶其能力上限 [61] - 发现五：最小架构是智能体自主进化的必要前提，当架构足够精简（如GA仅3000多行核心代码）时，智能体可以审视和修改自身，实现自进化 [62][63][65]