原位自进化的Agent
搜索文档
Skills刚火,就有零Skill的Agent来了…
36氪· 2026-01-26 19:40
核心观点 - 一篇新论文提出了一种名为“原位自进化”的AI智能体新范式,该智能体能够在执行任务时自主创造工具,无需预先定义技能或依赖人类标注,并在多个高难度评测基准上取得了媲美甚至超越现有顶级智能体的性能 [1][2][72] 技术框架与原理 - 该技术框架被称为“原位自进化”,其核心创新在于让智能体的进化发生在推理阶段,而非传统的训练阶段,实现了“边做边学” [26][27][28] - 与关注参数层面进化的“自进化”不同,“原位自进化”聚焦于工作流、记忆和工具三个层面的进化,其中团队选择了“工具优先”的落地路径 [32][33][35] - 框架由四个角色组成:管理者负责任务分析与规划,工匠负责按需创造工具,执行者负责使用工具执行任务,整合者负责生成最终答案 [41][42][44][47] - 系统在每次对话后会进行复盘,将成功经验蒸馏并更新到工具库中,实现持续进化 [49] - 为提高进化效率,团队引入了“Parallel batch”方法,将一批相似任务打包处理,让智能体一次性吸收大量经验 [51] 性能表现与实验结果 - 以Gemini 3 Pro为后端,该智能体在被称为“地狱级评测”的HLE上表现优异,仅次于GPT-5.2-Pro智能体 [2] - 在几个高难度评测集里,其性能比官方未披露方法的含工具使用的结果高出近20分 [2] - 在处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,随后工具数量趋于稳定,表明其具备识别工具可复用性的能力 [12][13] - 在DeepSearchQA、FinSearch Comp、XBench等多样化的评测基准上,该智能体同样表现出色,在需要复杂检索与推理的任务中,性能比基于Gemini 3 Pro的智能体高出十余个百分点 [12][19] - 实验采用“知识迁移”策略时,前期积累的工具能显著减少新任务的工具创造需求,在XBench的两个子集上,新创造工具数量直接降为零 [15] - 智能体创造的工具具有高度通用性,最常用的工具包括网页搜索、内容获取、计算器、文件下载等,与人类工作习惯高度一致 [17][19] - 所有实验结果是“One take”一次性跑出的,展现了架构的稳健性,但这也因为研究经费有限,仅设定了15万元预算,只够进行一次完整的推理实验 [2][58][60] 行业意义与影响 - 该研究为解决AI在To C场景下面临的“开放性、可控性、经济性”不可能三角提供了新思路,即让智能体在真实工作中自主学习 [62][71][72] - “工具优先”的原位自进化路径,通过代码执行的二元反馈(报错与否)提供高质量监督信号,兼顾了能力拓展与安全性 [37][38][73] - 该框架是开源的,包括所有实验日志、评测脚本和结果,为社区提供了可直接落地的方案 [51][74] - 研究团队认为,结合DeepSeek等开源模型已铺开的广阔市场,赋予其“越用越好用”的动态进化能力,有望与闭源模型竞争甚至实现弯道超车 [82][83] 研究团队背景 - 该研究由云玦科技的团队完成,云玦科技是一家由前阿里巴巴集团副总裁彭超创办的AI公司,专注于可穿戴通用智能体 [53] - 论文的通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [53][55] - 齐炜祯也是Visual ChatGPT项目的核心作者,该项目开源一周即获得3万Star,定义了以LLM调用多模态工具的Agent范式 [56] - 论文的两位第一作者李昊天和杨释钧,是在云玦科技实习期间参与此项工作的哈工大博士生与中科大学硕士生 [58]
Skills刚火,就有零Skill的Agent来了…
量子位· 2026-01-26 18:14
文章核心观点 - 介绍了一种名为“原位自进化”的新型AI智能体(Agent)范式,该智能体能够在执行任务的过程中,自主创造并积累可复用的工具,从而在无需预先定义技能(Skills)或依赖大量人类标注的情况下,动态扩展其能力边界,并在多个高难度基准测试中取得领先性能 [1][3][45][52] - 该研究由中国公司云玦科技的团队完成,其核心是“工具优先”的理念,通过一个包含管理者、工匠、执行者和整合者的多角色系统实现智能体的自我进化,且该框架已开源 [60][68][88][90] - 该技术被视为解决AI在开放性、可控性与经济性之间“不可能三角”的一种潜在方案,通过让智能体在推理阶段“边做边学”,有望使开源模型获得动态优势,从而与闭源模型竞争 [106][114][115][128] 技术原理与框架:原位自进化 - 核心概念是“原位自进化”,这是一种发生在模型推理阶段的自进化过程,区别于传统在训练阶段依赖外部监督信号的自进化 [45][52] - 该框架无需外部监督或真值标注,仅依靠模型推理时的内部反馈和过往交互经验,就能提炼出可复用的通用技能,实现“边做边学” [53][54] - 团队选择了“工具优先”的进化路径,认为工具直接决定了智能体的能力边界,且工具执行产生的代码报错等二元判别信号是天然的高质量监督信号,无需人类标注 [61][62][65][66] - 智能体系统由四个角色协同工作:管理者负责任务分析与规划;工匠负责按需创建新工具;执行者使用工具执行任务;整合者生成最终答案 [68][69][70][71][74] - 任务完成后,系统会进行复盘,将迭代过程沉淀为可复用的方法论并更新工具库,同时引入“并行批处理”机制,通过批量处理相似任务来大幅提升进化效率 [77][83][84][85] 性能表现与实验结果 - 以Gemini 3 Pro为后端模型的该智能体,在被称为“地狱级评测”的HLE基准测试中表现出色,成绩仅次于GPT-5.2-Pro智能体 [4] - 在多个高难度评测集(HLE, DeepSearchQA, FinSearchComp, XBench)中,该智能体的性能超越了官方未披露方法的含工具使用的结果,高出近20分 [5] - 在总计处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,其中在HLE的2000多道题上就创造了97个工具 [19][24] - 工具创造呈现边际效应递减并最终收敛于128个,表明所造工具具备高度的可复用性,能够覆盖后续绝大多数新任务,无需继续扩张 [27][28][29][32][33] - 在知识迁移策略下,旧工具库能有效减少新工具的创造需求,例如在XBench的两个阶段,新工具创造数量直接降为0 [35] - 智能体最常使用的工具与人类工作习惯高度一致,如网页搜索、内容获取、计算器、文件下载等,且工具使用频率呈现明显的马太效应 [38][39] 行业背景与意义 - 行业普遍认为,实现人工超级智能的关键节点之一是AI能够自进化,但传统讨论多集中于参数层面的进化 [56] - 该研究关注的是工作流、记忆和工具层面的进化,被视为更现实可行、能立即落地的解决方案 [57][58] - 该技术有望破解AI在To C场景下面临的“开放性、可控性、经济性”不可能三角:通过工具集解决能力边界问题,通过代码执行反馈保障可控性,并通过自进化处理开放需求同时控制成本 [106][114][115][116] - 对于开源生态而言,该技术可能改变游戏规则,若能赋予开源模型“越用越好用”的动态自进化能力,将有助于其与闭源模型竞争 [118][120][128] 研究团队与项目细节 - 该研究由云玦科技的团队完成,该公司由前阿里巴巴集团副总裁彭超创办,旨在开发可穿戴通用智能体 [91] - 论文通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [92][94][95] - 论文第一作者是李昊天(哈工大博士生)和杨释钧(中科大硕士生),他们在云玦科技实习期间完成了此项工作 [103] - 该研究实验经费仅为15万元,所有数据集和实验结果均为“一次通过”,没有资源进行反复调参,凸显了方法的稳健性 [104] - 该项目已完全开源,包括实验的所有日志数据、评测脚本和结果 [88]