红杉中国xbench发布AgentIF-OneDay评测体系 - 红杉中国联合UniPat AI发布了评估大模型纯视觉理解能力的评测集BabyVision,作为xbench基准测试中AGI Tracking的一部分,揭示了世界模型和视觉多模态的巨大发展潜力 [2] - xbench正式推出AgentIF-OneDay评测体系,该体系不再单纯考核模型的知识量,而是衡量其解决全场景长时复杂任务的能力,标志着Agent领域的新分水岭 [2] - 该评测体系旨在探索Agent从处理“一小时”任务到处理“一天”任务的跨越,揭示其在工作流执行、隐式推断与迭代编辑中的真实表现 [3] Agent能力演进的核心框架 - Agent能力的演进将沿着两条主线展开:Scaling Context(时间维度延展)与Scaling Domain(任务类型扩展) [8] - Scaling Context指任务在时间维度上的延展,Agent需在更长执行周期中维护上下文状态,跟踪目标与约束,从分钟级任务扩展到一天级乃至一周级工作量 [8] - Scaling Domain指Agent在任务类型上扩展带来的复杂度,现实工作横跨多个领域与语境,Agent需提升对更广任务分布的覆盖能力 [9] - xbench在设计AgentIF评测体系时,会同时沿着Context与Domain两个方向推进,通过拉长时间尺度和覆盖多样场景来刻画Agent的整体能力边界 [9] AgentIF-OneDay评测的设计与构成 - AgentIF-OneDay以人类一天内可完成的任务复杂度为基准,测试Agent在无需人类介入下稳定完成整套任务并交付结果的能力,覆盖生活、学习和职业等多样化领域 [12] - 评测题库基于对大量用户真实工作日志的分析,将日常任务抽象为三种类型:工作流执行、范例参考(隐式指令推断)以及迭代式编辑 [13][14][16] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式 [17] - 每道任务都有一套细粒度评判标准,总计767个评分点,分为正向与负向指标,评测系统采用LLM作为裁判并结合自动校验方法 [17] 主流Agent系统的评测结果 - 以Overall完整任务成功率为标准,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成当下能力最强的第一梯队 [20] - 从任务领域看,ChatGPT-Agent在工作场景得分最高(72.18),Manus在生活场景得分最高(73.40),Genspark在学习场景得分最高(71.19) [22] - 从能力维度看,Genspark在隐式指令推断上表现最优,Manus在开放工作流执行上最优,MiniMax-Agent具有最好的迭代式编辑能力 [23] - 评测发现,隐式条件推断是目前Agent普遍最薄弱的能力项,稳定性、文件处理链路、隐式结构理解及跨工具状态管理是决定Agent能否承担一天工作量的关键 [23] Agent技术的未来展望与挑战 - 随着系统能力提升,预计在2026年Agent将开始挑战“一周”的人类工作量,xbench已开始构建OneWeek评测集 [24] - OneWeek评测面临的挑战不仅是任务变长,还包括出题难度增加、评测标准更严格,以及高价值行业场景数据获取成本显著上升 [25] - 从长期技术演进看,静态训练与静态评测可能都不是未来Agent系统的发展路径,下一步能力提升可能发生在模型部署之后,通过不断的真实世界强化学习来获取实践知识 [26] - 长程任务Agent的发展可类比自动驾驶,从有限路段走向通用路段,有效的数据累计可以带来高可靠Agent系统的出现,优先转起数据飞轮的公司将率先实现通用Agent的完全自动驾驶时刻 [27]
红杉中国,10天发两篇Paper
投资界·2026-01-21 10:01