xbench - 财报，业绩电话会，研报，新闻

xbench

搜索文档

投资界· 2026-01-21 10:01

红杉中国xbench发布AgentIF-OneDay评测体系 - 红杉中国联合UniPat AI发布了评估大模型纯视觉理解能力的评测集BabyVision，作为xbench基准测试中AGI Tracking的一部分，揭示了世界模型和视觉多模态的巨大发展潜力 [2] - xbench正式推出AgentIF-OneDay评测体系，该体系不再单纯考核模型的知识量，而是衡量其解决全场景长时复杂任务的能力，标志着Agent领域的新分水岭 [2] - 该评测体系旨在探索Agent从处理“一小时”任务到处理“一天”任务的跨越，揭示其在工作流执行、隐式推断与迭代编辑中的真实表现 [3] Agent能力演进的核心框架 - Agent能力的演进将沿着两条主线展开：Scaling Context（时间维度延展）与Scaling Domain（任务类型扩展） [8] - Scaling Context指任务在时间维度上的延展，Agent需在更长执行周期中维护上下文状态，跟踪目标与约束，从分钟级任务扩展到一天级乃至一周级工作量 [8] - Scaling Domain指Agent在任务类型上扩展带来的复杂度，现实工作横跨多个领域与语境，Agent需提升对更广任务分布的覆盖能力 [9] - xbench在设计AgentIF评测体系时，会同时沿着Context与Domain两个方向推进，通过拉长时间尺度和覆盖多样场景来刻画Agent的整体能力边界 [9] AgentIF-OneDay评测的设计与构成 - AgentIF-OneDay以人类一天内可完成的任务复杂度为基准，测试Agent在无需人类介入下稳定完成整套任务并交付结果的能力，覆盖生活、学习和职业等多样化领域 [12] - 评测题库基于对大量用户真实工作日志的分析，将日常任务抽象为三种类型：工作流执行、范例参考（隐式指令推断）以及迭代式编辑 [13][14][16] - 第一期题库由104道任务组成，覆盖工作、生活和学习场景，其中62道为文件驱动的合成任务，覆盖PDF、PPT、Excel、图像、代码等15种以上格式 [17] - 每道任务都有一套细粒度评判标准，总计767个评分点，分为正向与负向指标，评测系统采用LLM作为裁判并结合自动校验方法 [17] 主流Agent系统的评测结果 - 以Overall完整任务成功率为标准，Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间，构成当下能力最强的第一梯队 [20] - 从任务领域看，ChatGPT-Agent在工作场景得分最高（72.18），Manus在生活场景得分最高（73.40），Genspark在学习场景得分最高（71.19） [22] - 从能力维度看，Genspark在隐式指令推断上表现最优，Manus在开放工作流执行上最优，MiniMax-Agent具有最好的迭代式编辑能力 [23] - 评测发现，隐式条件推断是目前Agent普遍最薄弱的能力项，稳定性、文件处理链路、隐式结构理解及跨工具状态管理是决定Agent能否承担一天工作量的关键 [23] Agent技术的未来展望与挑战 - 随着系统能力提升，预计在2026年Agent将开始挑战“一周”的人类工作量，xbench已开始构建OneWeek评测集 [24] - OneWeek评测面临的挑战不仅是任务变长，还包括出题难度增加、评测标准更严格，以及高价值行业场景数据获取成本显著上升 [25] - 从长期技术演进看，静态训练与静态评测可能都不是未来Agent系统的发展路径，下一步能力提升可能发生在模型部署之后，通过不断的真实世界强化学习来获取实践知识 [26] - 长程任务Agent的发展可类比自动驾驶，从有限路段走向通用路段，有效的数据累计可以带来高可靠Agent系统的出现，优先转起数据飞轮的公司将率先实现通用Agent的完全自动驾驶时刻 [27]