Agent能力评测
搜索文档
红杉中国,10天发两篇Paper
投资界· 2026-01-21 10:01
红杉中国xbench发布AgentIF-OneDay评测体系 - 红杉中国联合UniPat AI发布了评估大模型纯视觉理解能力的评测集BabyVision,作为xbench基准测试中AGI Tracking的一部分,揭示了世界模型和视觉多模态的巨大发展潜力 [2] - xbench正式推出AgentIF-OneDay评测体系,该体系不再单纯考核模型的知识量,而是衡量其解决全场景长时复杂任务的能力,标志着Agent领域的新分水岭 [2] - 该评测体系旨在探索Agent从处理“一小时”任务到处理“一天”任务的跨越,揭示其在工作流执行、隐式推断与迭代编辑中的真实表现 [3] Agent能力演进的核心框架 - Agent能力的演进将沿着两条主线展开:Scaling Context(时间维度延展)与Scaling Domain(任务类型扩展) [8] - Scaling Context指任务在时间维度上的延展,Agent需在更长执行周期中维护上下文状态,跟踪目标与约束,从分钟级任务扩展到一天级乃至一周级工作量 [8] - Scaling Domain指Agent在任务类型上扩展带来的复杂度,现实工作横跨多个领域与语境,Agent需提升对更广任务分布的覆盖能力 [9] - xbench在设计AgentIF评测体系时,会同时沿着Context与Domain两个方向推进,通过拉长时间尺度和覆盖多样场景来刻画Agent的整体能力边界 [9] AgentIF-OneDay评测的设计与构成 - AgentIF-OneDay以人类一天内可完成的任务复杂度为基准,测试Agent在无需人类介入下稳定完成整套任务并交付结果的能力,覆盖生活、学习和职业等多样化领域 [12] - 评测题库基于对大量用户真实工作日志的分析,将日常任务抽象为三种类型:工作流执行、范例参考(隐式指令推断)以及迭代式编辑 [13][14][16] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式 [17] - 每道任务都有一套细粒度评判标准,总计767个评分点,分为正向与负向指标,评测系统采用LLM作为裁判并结合自动校验方法 [17] 主流Agent系统的评测结果 - 以Overall完整任务成功率为标准,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成当下能力最强的第一梯队 [20] - 从任务领域看,ChatGPT-Agent在工作场景得分最高(72.18),Manus在生活场景得分最高(73.40),Genspark在学习场景得分最高(71.19) [22] - 从能力维度看,Genspark在隐式指令推断上表现最优,Manus在开放工作流执行上最优,MiniMax-Agent具有最好的迭代式编辑能力 [23] - 评测发现,隐式条件推断是目前Agent普遍最薄弱的能力项,稳定性、文件处理链路、隐式结构理解及跨工具状态管理是决定Agent能否承担一天工作量的关键 [23] Agent技术的未来展望与挑战 - 随着系统能力提升,预计在2026年Agent将开始挑战“一周”的人类工作量,xbench已开始构建OneWeek评测集 [24] - OneWeek评测面临的挑战不仅是任务变长,还包括出题难度增加、评测标准更严格,以及高价值行业场景数据获取成本显著上升 [25] - 从长期技术演进看,静态训练与静态评测可能都不是未来Agent系统的发展路径,下一步能力提升可能发生在模型部署之后,通过不断的真实世界强化学习来获取实践知识 [26] - 长程任务Agent的发展可类比自动驾驶,从有限路段走向通用路段,有效的数据累计可以带来高可靠Agent系统的出现,优先转起数据飞轮的公司将率先实现通用Agent的完全自动驾驶时刻 [27]
AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇· 2026-01-21 08:06
文章核心观点 - 红杉中国xbench团队发布AgentIF-OneDay评测体系,旨在通过构建以“人类时间投入”衡量任务复杂度的新基准,评估大模型智能体在长程、多领域任务中的真实解决能力,并预判其从“提问助手”向创造经济价值的“数字员工”演进的技术方向[1][6] 大模型智能体现状与评测需求 - 大模型在单点推理上已接近PhD水平,但在突破一小时人类处理复杂度的长程任务时,完成度出现明显下降,存在巨大能力鸿沟[1][4] - 现有评测集(如ScienceQA与DeepSearch)已使模型在分钟级集中推理任务上达到稳定胜任,需新的评测体系来评估智能体在实际工作和生活中的价值[4][6] AgentIF-OneDay评测体系的设计理念 - 提出以“任务复杂度”为核心的新视角,其定义为完成一个任务所需的“人类时间投入”,并对应其潜在的经济与使用价值[6] - 认为智能体能力演进将沿两条主线展开:Scaling Context(任务在时间维度上的延展,从分钟级到一天乃至一周)和Scaling Domain(在任务类型和领域上的扩展)[6][7] - 评测体系旨在同时沿Context与Domain两个方向推进,通过覆盖更广泛的生活、学习与职业场景,刻画智能体在真实世界任务分布中的整体能力边界[7] AgentIF-OneDay评测任务构建 - 以人类一天内可完成的任务复杂度为基准,测试智能体在无需人类介入下稳定完成整套任务并交付结果的能力[10] - 基于对大量用户真实工作日志的分析,将一天任务抽象为三种类型:工作流执行(已知流程的精确执行)、范例参考(从案例中挖掘隐式指令)、迭代式编辑(在多轮交互中动态满足需求)[10][11][14][15] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式,模拟真实跨格式工作流[16] - 每道任务配有细粒度评判标准,总计767个评分点,采用LLM作为裁判并结合多种自动校验方法,评估维度包括最终结果、流程干净度、误操作、附件解析及迭代一致性[16] 主流智能体系统评测结果 - 在整体任务成功率上,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成能力最强的第一梯队,表明不同架构的智能体系统在完成真实任务链时,用户侧感知能力相近[18] - 在任务领域上存在明显差异:ChatGPT-Agent是最优生产力工具(工作场景得分72.18),Manus是最佳生活助手(生活场景得分73.40),Genspark是最好学习伙伴(学习场景得分71.19)[18][19] - 在能力维度上表现不一:Genspark在隐式指令推断上最优,Manus在开放工作流执行上最优,Minimax-Agent具有最好的迭代式编辑能力[20] - 隐式条件推断是目前智能体普遍最薄弱的能力项,即便表现最好的系统也难以在格式复现与结构一致性上完全正确[20] - 稳定性、文件处理链路、隐式结构理解能力及跨工具的状态管理是决定智能体能否承担一天工作量的关键环节[21] 技术演进与未来展望 - 预计到2026年,智能体将开始挑战One-Week的人类工作量,相关评测集已在构建中;一周尺度任务将呈现明确的行业语境(如金融、医疗、法律),数据获取成本显著上升[23] - 随着任务复杂度提升,依赖静态数据集和离线构建的训练与评测方式显现局限,未来发展方向是让智能体具备主动学习能力,通过在实际运行中收集经验、评估修正来形成稳定策略[24] - 长期技术演进可能依赖于在线学习与真实世界强化学习,使模型在部署后能持续获取实践知识并适应[24] - 长程任务智能体的发展可类比自动驾驶,实现从有限路段到通用路段、从频繁人工干预到长时无干预的转变;有效的数据积累将催生高可靠智能体系统,优先构建用户数据飞轮的公司将率先实现通用智能体的“完全自动驾驶”时刻[25]