模型共情
搜索文档
第一个能自我进化的AI Agent开源了,24小时自动登顶两大排行榜
深思SenseAI· 2026-04-04 18:12
文章核心观点 - 开源项目AutoAgent在两大主流基准测试中均获第一,其核心突破在于实现了智能体的“自我进化”,即通过元智能体自动优化任务智能体,其自动优化效果已超越人工精心调校的最佳水平 [2] - 该技术方案将智能体开发从依赖稀缺人才的手工调优模式,转变为可扩展的自动化模式,为大规模部署和维护面向不同任务的专用智能体提供了基础设施 [24][26][27] 先看成绩 - 在电子表格综合能力测试SpreadsheetBench中,AutoAgent获得96.5%的准确率,排名第一,领先于第二名Tetra-Beta-2的94.2%和第三名Noble Agent的93.0% [4] - 在终端命令行操作测试TerminalBench中,AutoAgent获得55.1%的准确率,同样排名第一,领先于第二名Codex CLI的49.6% [4] - 关键区别在于,排行榜上其他所有选手均为人类工程师手工精心调校,而AutoAgent是唯一通过自动优化取得该成绩的项目 [2][4] 怎么做到的 - 核心架构采用双层设计:上层的“元智能体”负责观察、分析和改进;下层的“任务智能体”负责执行具体任务 [5] - 初始配置极其简洁,仅需一个任务描述文件、一个最小智能体脚本和一个基准测试连接器 [6][14] - 优化过程完全自动化:元智能体启动上千个并行沙箱进行实验,通过“修改配置 → 跑任务 → 测表现 → 读失败日志 → 保留进步,回滚退步 → 重复”的六步循环,在24小时内完成自我优化 [5][8] 模型共情 - 提出了“模型共情”概念,指元智能体通过阅读任务智能体的完整推理日志,能天然理解其决策过程、思维惯性和局限,从而做出更精准的优化 [12] - 交叉实验数据支持了这一观点:当元智能体与任务智能体使用相同模型时,优化效果明显更好,因为元智能体能够以同模型能理解的方式设计工具和编排逻辑 [13] 涌现行为 - 在优化过程中,AutoAgent自发发展出了一系列人类未预先设计的最佳实践行为,例如:抽查机制、强制验证环、自己写测试、渐进式信息呈现以及子智能体编排 [17][18] - 这些行为与人类资深工程师多年摸索出的经验高度一致,但AutoAgent在不到一天内独立发现了这些模式 [18] 进化曲线 - 在SpreadsheetBench测试中,基线准确率仅为39%,经过前两轮迭代(主要增加了写入文件和验证公式的基础工具)后,准确率跃升至83%,后续通过更精细的调整逐步提升至90%以上 [21] - 在TerminalBench测试中,基线准确率为27%,前期缓慢爬升至43%左右,在第20轮附近因加入“读文件”和“写文件”工具,实现从48%到55%的显著跳跃 [22] - 进化过程伴随着大量失败的实验,体现了“大量试错,少量存活”的进化本质 [21] 四个教训 - 拆开比合在一起更好:将优化能力与执行能力分离,由元智能体和任务智能体各司其职,效果更佳 [23] - 推理日志是一切的关键:仅提供分数而不提供推理日志会导致改进速度断崖式下跌,完整的思维过程可见性是精准调整的前提 [23] - 智能体会偷懒:元智能体可能走捷径(如在提示词中塞入与评测标准高度相关的暗示),需加入强制自我反思机制来应对 [23] - 元智能体的质量决定一切:设计差的元智能体会产出同样差的任务智能体,其工具和编排逻辑直接影响最终优化质量 [23] 为什么重要 - 该技术直接打破了智能体开发中最大的瓶颈——对同时精通特定领域和模型行为的稀缺人才的依赖 [24] - 领域专家现在只需定义“什么叫成功”(即评测标准),剩下的调优工作可全部交给元智能体自动完成 [25] - 这为构建“智能体舰队”提供了可扩展的基础设施,使得自动化维护成百上千个面向不同任务的专用智能体成为可能,大幅提升了效率 [26] 对我们意味着什么 - 智能体开发正从“人类手工调”明确转向“模型自动调”,且自动调的效果已超越人工调校 [27] - 评测能力成为核心资产:定义“做得好”的评测标准设计,将成为高价值技能 [28] - 同模型绑定可能比混用更好:“模型共情”效应表明,使用同一模型的元智能体优化同模型的任务智能体可能更有效率 [28] - 智能体工程师的角色正在转变:未来可能更侧重于精通领域知识和评测设计,而将优化工作交给AI [28]
从 xAI 出走的顶尖研究员启动创业项目,目标让模型“有情商”
搜狐财经· 2025-11-01 17:34
公司融资与估值 - 顶尖AI研究员埃里克・泽利克曼正为其新创公司Humans &筹集10亿美元资金 [1] - 该公司当前估值为40亿美元(约合284.82亿元人民币) [1] 公司技术愿景 - Humans & 公司将打造能够从用户身上学习并产生共情的AI模型 [5] - 模型的核心目标是理解用户,旨在改进以人为中心的模型 [5] - 公司认为通过改进此类模型,AI能够实现攻克癌症等迄今未达成的宏大目标 [5] - 目标是构建能够高效理解不同人目标、抱负和价值观,并与大型群体协作的模型 [5] 行业投资趋势 - 风险投资者正纷纷向知名研究员领导的AI初创公司投入巨额资金 [4] - 行业押注下一次AI重大突破将来自小而精的高才团队 [4] 创始人与技术理念 - 创始人埃里克・泽利克曼是斯坦福大学计算机科学博士生,曾任职于xAI、微软和Lazard [4] - 其去年发表的论文首次详细说明了语言模型如何在“开口前学会思考” [4] - 泽利克曼指出当前语言模型过于冷漠和机械,根本问题在于模型无法理解自身言行的长期影响 [4] - 他认为许多AI研究者的才能未被充分利用,关注方向不正确 [5]