核心观点 - 一篇新论文提出了一种名为“原位自进化”的AI智能体新范式,该智能体能够在执行任务时自主创造工具,无需预先定义技能或依赖人类标注,并在多个高难度评测基准上取得了媲美甚至超越现有顶级智能体的性能 [1][2][72] 技术框架与原理 - 该技术框架被称为“原位自进化”,其核心创新在于让智能体的进化发生在推理阶段,而非传统的训练阶段,实现了“边做边学” [26][27][28] - 与关注参数层面进化的“自进化”不同,“原位自进化”聚焦于工作流、记忆和工具三个层面的进化,其中团队选择了“工具优先”的落地路径 [32][33][35] - 框架由四个角色组成:管理者负责任务分析与规划,工匠负责按需创造工具,执行者负责使用工具执行任务,整合者负责生成最终答案 [41][42][44][47] - 系统在每次对话后会进行复盘,将成功经验蒸馏并更新到工具库中,实现持续进化 [49] - 为提高进化效率,团队引入了“Parallel batch”方法,将一批相似任务打包处理,让智能体一次性吸收大量经验 [51] 性能表现与实验结果 - 以Gemini 3 Pro为后端,该智能体在被称为“地狱级评测”的HLE上表现优异,仅次于GPT-5.2-Pro智能体 [2] - 在几个高难度评测集里,其性能比官方未披露方法的含工具使用的结果高出近20分 [2] - 在处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,随后工具数量趋于稳定,表明其具备识别工具可复用性的能力 [12][13] - 在DeepSearchQA、FinSearch Comp、XBench等多样化的评测基准上,该智能体同样表现出色,在需要复杂检索与推理的任务中,性能比基于Gemini 3 Pro的智能体高出十余个百分点 [12][19] - 实验采用“知识迁移”策略时,前期积累的工具能显著减少新任务的工具创造需求,在XBench的两个子集上,新创造工具数量直接降为零 [15] - 智能体创造的工具具有高度通用性,最常用的工具包括网页搜索、内容获取、计算器、文件下载等,与人类工作习惯高度一致 [17][19] - 所有实验结果是“One take”一次性跑出的,展现了架构的稳健性,但这也因为研究经费有限,仅设定了15万元预算,只够进行一次完整的推理实验 [2][58][60] 行业意义与影响 - 该研究为解决AI在To C场景下面临的“开放性、可控性、经济性”不可能三角提供了新思路,即让智能体在真实工作中自主学习 [62][71][72] - “工具优先”的原位自进化路径,通过代码执行的二元反馈(报错与否)提供高质量监督信号,兼顾了能力拓展与安全性 [37][38][73] - 该框架是开源的,包括所有实验日志、评测脚本和结果,为社区提供了可直接落地的方案 [51][74] - 研究团队认为,结合DeepSeek等开源模型已铺开的广阔市场,赋予其“越用越好用”的动态进化能力,有望与闭源模型竞争甚至实现弯道超车 [82][83] 研究团队背景 - 该研究由云玦科技的团队完成,云玦科技是一家由前阿里巴巴集团副总裁彭超创办的AI公司,专注于可穿戴通用智能体 [53] - 论文的通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [53][55] - 齐炜祯也是Visual ChatGPT项目的核心作者,该项目开源一周即获得3万Star,定义了以LLM调用多模态工具的Agent范式 [56] - 论文的两位第一作者李昊天和杨释钧,是在云玦科技实习期间参与此项工作的哈工大博士生与中科大学硕士生 [58]
Skills刚火,就有零Skill的Agent来了…
36氪·2026-01-26 19:40