Skills刚火,就有零Skill的Agent来了…
量子位·2026-01-26 18:14

文章核心观点 - 介绍了一种名为“原位自进化”的新型AI智能体(Agent)范式,该智能体能够在执行任务的过程中,自主创造并积累可复用的工具,从而在无需预先定义技能(Skills)或依赖大量人类标注的情况下,动态扩展其能力边界,并在多个高难度基准测试中取得领先性能 [1][3][45][52] - 该研究由中国公司云玦科技的团队完成,其核心是“工具优先”的理念,通过一个包含管理者、工匠、执行者和整合者的多角色系统实现智能体的自我进化,且该框架已开源 [60][68][88][90] - 该技术被视为解决AI在开放性、可控性与经济性之间“不可能三角”的一种潜在方案,通过让智能体在推理阶段“边做边学”,有望使开源模型获得动态优势,从而与闭源模型竞争 [106][114][115][128] 技术原理与框架:原位自进化 - 核心概念是“原位自进化”,这是一种发生在模型推理阶段的自进化过程,区别于传统在训练阶段依赖外部监督信号的自进化 [45][52] - 该框架无需外部监督或真值标注,仅依靠模型推理时的内部反馈和过往交互经验,就能提炼出可复用的通用技能,实现“边做边学” [53][54] - 团队选择了“工具优先”的进化路径,认为工具直接决定了智能体的能力边界,且工具执行产生的代码报错等二元判别信号是天然的高质量监督信号,无需人类标注 [61][62][65][66] - 智能体系统由四个角色协同工作:管理者负责任务分析与规划;工匠负责按需创建新工具;执行者使用工具执行任务;整合者生成最终答案 [68][69][70][71][74] - 任务完成后,系统会进行复盘,将迭代过程沉淀为可复用的方法论并更新工具库,同时引入“并行批处理”机制,通过批量处理相似任务来大幅提升进化效率 [77][83][84][85] 性能表现与实验结果 - 以Gemini 3 Pro为后端模型的该智能体,在被称为“地狱级评测”的HLE基准测试中表现出色,成绩仅次于GPT-5.2-Pro智能体 [4] - 在多个高难度评测集(HLE, DeepSearchQA, FinSearchComp, XBench)中,该智能体的性能超越了官方未披露方法的含工具使用的结果,高出近20分 [5] - 在总计处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,其中在HLE的2000多道题上就创造了97个工具 [19][24] - 工具创造呈现边际效应递减并最终收敛于128个,表明所造工具具备高度的可复用性,能够覆盖后续绝大多数新任务,无需继续扩张 [27][28][29][32][33] - 在知识迁移策略下,旧工具库能有效减少新工具的创造需求,例如在XBench的两个阶段,新工具创造数量直接降为0 [35] - 智能体最常使用的工具与人类工作习惯高度一致,如网页搜索、内容获取、计算器、文件下载等,且工具使用频率呈现明显的马太效应 [38][39] 行业背景与意义 - 行业普遍认为,实现人工超级智能的关键节点之一是AI能够自进化,但传统讨论多集中于参数层面的进化 [56] - 该研究关注的是工作流、记忆和工具层面的进化,被视为更现实可行、能立即落地的解决方案 [57][58] - 该技术有望破解AI在To C场景下面临的“开放性、可控性、经济性”不可能三角:通过工具集解决能力边界问题,通过代码执行反馈保障可控性,并通过自进化处理开放需求同时控制成本 [106][114][115][116] - 对于开源生态而言,该技术可能改变游戏规则,若能赋予开源模型“越用越好用”的动态自进化能力,将有助于其与闭源模型竞争 [118][120][128] 研究团队与项目细节 - 该研究由云玦科技的团队完成,该公司由前阿里巴巴集团副总裁彭超创办,旨在开发可穿戴通用智能体 [91] - 论文通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [92][94][95] - 论文第一作者是李昊天(哈工大博士生)和杨释钧(中科大硕士生),他们在云玦科技实习期间完成了此项工作 [103] - 该研究实验经费仅为15万元,所有数据集和实验结果均为“一次通过”,没有资源进行反复调参,凸显了方法的稳健性 [104] - 该项目已完全开源,包括实验的所有日志数据、评测脚本和结果 [88]

Skills刚火,就有零Skill的Agent来了… - Reportify