智能体自动调优 - 财报，业绩电话会，研报，新闻

智能体自动调优

搜索文档

深思SenseAI· 2026-04-04 18:12

文章核心观点 - 开源项目AutoAgent在两大主流基准测试中均获第一，其核心突破在于实现了智能体的“自我进化”，即通过元智能体自动优化任务智能体，其自动优化效果已超越人工精心调校的最佳水平 [2] - 该技术方案将智能体开发从依赖稀缺人才的手工调优模式，转变为可扩展的自动化模式，为大规模部署和维护面向不同任务的专用智能体提供了基础设施 [24][26][27] 先看成绩 - 在电子表格综合能力测试SpreadsheetBench中，AutoAgent获得96.5%的准确率，排名第一，领先于第二名Tetra-Beta-2的94.2%和第三名Noble Agent的93.0% [4] - 在终端命令行操作测试TerminalBench中，AutoAgent获得55.1%的准确率，同样排名第一，领先于第二名Codex CLI的49.6% [4] - 关键区别在于，排行榜上其他所有选手均为人类工程师手工精心调校，而AutoAgent是唯一通过自动优化取得该成绩的项目 [2][4] 怎么做到的 - 核心架构采用双层设计：上层的“元智能体”负责观察、分析和改进；下层的“任务智能体”负责执行具体任务 [5] - 初始配置极其简洁，仅需一个任务描述文件、一个最小智能体脚本和一个基准测试连接器 [6][14] - 优化过程完全自动化：元智能体启动上千个并行沙箱进行实验，通过“修改配置 → 跑任务 → 测表现 → 读失败日志 → 保留进步，回滚退步 → 重复”的六步循环，在24小时内完成自我优化 [5][8] 模型共情 - 提出了“模型共情”概念，指元智能体通过阅读任务智能体的完整推理日志，能天然理解其决策过程、思维惯性和局限，从而做出更精准的优化 [12] - 交叉实验数据支持了这一观点：当元智能体与任务智能体使用相同模型时，优化效果明显更好，因为元智能体能够以同模型能理解的方式设计工具和编排逻辑 [13] 涌现行为 - 在优化过程中，AutoAgent自发发展出了一系列人类未预先设计的最佳实践行为，例如：抽查机制、强制验证环、自己写测试、渐进式信息呈现以及子智能体编排 [17][18] - 这些行为与人类资深工程师多年摸索出的经验高度一致，但AutoAgent在不到一天内独立发现了这些模式 [18] 进化曲线 - 在SpreadsheetBench测试中，基线准确率仅为39%，经过前两轮迭代（主要增加了写入文件和验证公式的基础工具）后，准确率跃升至83%，后续通过更精细的调整逐步提升至90%以上 [21] - 在TerminalBench测试中，基线准确率为27%，前期缓慢爬升至43%左右，在第20轮附近因加入“读文件”和“写文件”工具，实现从48%到55%的显著跳跃 [22] - 进化过程伴随着大量失败的实验，体现了“大量试错，少量存活”的进化本质 [21] 四个教训 - 拆开比合在一起更好：将优化能力与执行能力分离，由元智能体和任务智能体各司其职，效果更佳 [23] - 推理日志是一切的关键：仅提供分数而不提供推理日志会导致改进速度断崖式下跌，完整的思维过程可见性是精准调整的前提 [23] - 智能体会偷懒：元智能体可能走捷径（如在提示词中塞入与评测标准高度相关的暗示），需加入强制自我反思机制来应对 [23] - 元智能体的质量决定一切：设计差的元智能体会产出同样差的任务智能体，其工具和编排逻辑直接影响最终优化质量 [23] 为什么重要 - 该技术直接打破了智能体开发中最大的瓶颈——对同时精通特定领域和模型行为的稀缺人才的依赖 [24] - 领域专家现在只需定义“什么叫成功”（即评测标准），剩下的调优工作可全部交给元智能体自动完成 [25] - 这为构建“智能体舰队”提供了可扩展的基础设施，使得自动化维护成百上千个面向不同任务的专用智能体成为可能，大幅提升了效率 [26] 对我们意味着什么 - 智能体开发正从“人类手工调”明确转向“模型自动调”，且自动调的效果已超越人工调校 [27] - 评测能力成为核心资产：定义“做得好”的评测标准设计，将成为高价值技能 [28] - 同模型绑定可能比混用更好：“模型共情”效应表明，使用同一模型的元智能体优化同模型的任务智能体可能更有效率 [28] - 智能体工程师的角色正在转变：未来可能更侧重于精通领域知识和评测设计，而将优化工作交给AI [28]