Scaling context
搜索文档
AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇· 2026-01-21 08:06
文章核心观点 - 红杉中国xbench团队发布AgentIF-OneDay评测体系,旨在通过构建以“人类时间投入”衡量任务复杂度的新基准,评估大模型智能体在长程、多领域任务中的真实解决能力,并预判其从“提问助手”向创造经济价值的“数字员工”演进的技术方向[1][6] 大模型智能体现状与评测需求 - 大模型在单点推理上已接近PhD水平,但在突破一小时人类处理复杂度的长程任务时,完成度出现明显下降,存在巨大能力鸿沟[1][4] - 现有评测集(如ScienceQA与DeepSearch)已使模型在分钟级集中推理任务上达到稳定胜任,需新的评测体系来评估智能体在实际工作和生活中的价值[4][6] AgentIF-OneDay评测体系的设计理念 - 提出以“任务复杂度”为核心的新视角,其定义为完成一个任务所需的“人类时间投入”,并对应其潜在的经济与使用价值[6] - 认为智能体能力演进将沿两条主线展开:Scaling Context(任务在时间维度上的延展,从分钟级到一天乃至一周)和Scaling Domain(在任务类型和领域上的扩展)[6][7] - 评测体系旨在同时沿Context与Domain两个方向推进,通过覆盖更广泛的生活、学习与职业场景,刻画智能体在真实世界任务分布中的整体能力边界[7] AgentIF-OneDay评测任务构建 - 以人类一天内可完成的任务复杂度为基准,测试智能体在无需人类介入下稳定完成整套任务并交付结果的能力[10] - 基于对大量用户真实工作日志的分析,将一天任务抽象为三种类型:工作流执行(已知流程的精确执行)、范例参考(从案例中挖掘隐式指令)、迭代式编辑(在多轮交互中动态满足需求)[10][11][14][15] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式,模拟真实跨格式工作流[16] - 每道任务配有细粒度评判标准,总计767个评分点,采用LLM作为裁判并结合多种自动校验方法,评估维度包括最终结果、流程干净度、误操作、附件解析及迭代一致性[16] 主流智能体系统评测结果 - 在整体任务成功率上,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成能力最强的第一梯队,表明不同架构的智能体系统在完成真实任务链时,用户侧感知能力相近[18] - 在任务领域上存在明显差异:ChatGPT-Agent是最优生产力工具(工作场景得分72.18),Manus是最佳生活助手(生活场景得分73.40),Genspark是最好学习伙伴(学习场景得分71.19)[18][19] - 在能力维度上表现不一:Genspark在隐式指令推断上最优,Manus在开放工作流执行上最优,Minimax-Agent具有最好的迭代式编辑能力[20] - 隐式条件推断是目前智能体普遍最薄弱的能力项,即便表现最好的系统也难以在格式复现与结构一致性上完全正确[20] - 稳定性、文件处理链路、隐式结构理解能力及跨工具的状态管理是决定智能体能否承担一天工作量的关键环节[21] 技术演进与未来展望 - 预计到2026年,智能体将开始挑战One-Week的人类工作量,相关评测集已在构建中;一周尺度任务将呈现明确的行业语境(如金融、医疗、法律),数据获取成本显著上升[23] - 随着任务复杂度提升,依赖静态数据集和离线构建的训练与评测方式显现局限,未来发展方向是让智能体具备主动学习能力,通过在实际运行中收集经验、评估修正来形成稳定策略[24] - 长期技术演进可能依赖于在线学习与真实世界强化学习,使模型在部署后能持续获取实践知识并适应[24] - 长程任务智能体的发展可类比自动驾驶,实现从有限路段到通用路段、从频繁人工干预到长时无干预的转变;有效的数据积累将催生高可靠智能体系统,优先构建用户数据飞轮的公司将率先实现通用智能体的“完全自动驾驶”时刻[25]