任务复杂度
搜索文档
AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇· 2026-01-21 08:06
文章核心观点 - 红杉中国xbench团队发布AgentIF-OneDay评测体系,旨在通过构建以“人类时间投入”衡量任务复杂度的新基准,评估大模型智能体在长程、多领域任务中的真实解决能力,并预判其从“提问助手”向创造经济价值的“数字员工”演进的技术方向[1][6] 大模型智能体现状与评测需求 - 大模型在单点推理上已接近PhD水平,但在突破一小时人类处理复杂度的长程任务时,完成度出现明显下降,存在巨大能力鸿沟[1][4] - 现有评测集(如ScienceQA与DeepSearch)已使模型在分钟级集中推理任务上达到稳定胜任,需新的评测体系来评估智能体在实际工作和生活中的价值[4][6] AgentIF-OneDay评测体系的设计理念 - 提出以“任务复杂度”为核心的新视角,其定义为完成一个任务所需的“人类时间投入”,并对应其潜在的经济与使用价值[6] - 认为智能体能力演进将沿两条主线展开:Scaling Context(任务在时间维度上的延展,从分钟级到一天乃至一周)和Scaling Domain(在任务类型和领域上的扩展)[6][7] - 评测体系旨在同时沿Context与Domain两个方向推进,通过覆盖更广泛的生活、学习与职业场景,刻画智能体在真实世界任务分布中的整体能力边界[7] AgentIF-OneDay评测任务构建 - 以人类一天内可完成的任务复杂度为基准,测试智能体在无需人类介入下稳定完成整套任务并交付结果的能力[10] - 基于对大量用户真实工作日志的分析,将一天任务抽象为三种类型:工作流执行(已知流程的精确执行)、范例参考(从案例中挖掘隐式指令)、迭代式编辑(在多轮交互中动态满足需求)[10][11][14][15] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式,模拟真实跨格式工作流[16] - 每道任务配有细粒度评判标准,总计767个评分点,采用LLM作为裁判并结合多种自动校验方法,评估维度包括最终结果、流程干净度、误操作、附件解析及迭代一致性[16] 主流智能体系统评测结果 - 在整体任务成功率上,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成能力最强的第一梯队,表明不同架构的智能体系统在完成真实任务链时,用户侧感知能力相近[18] - 在任务领域上存在明显差异:ChatGPT-Agent是最优生产力工具(工作场景得分72.18),Manus是最佳生活助手(生活场景得分73.40),Genspark是最好学习伙伴(学习场景得分71.19)[18][19] - 在能力维度上表现不一:Genspark在隐式指令推断上最优,Manus在开放工作流执行上最优,Minimax-Agent具有最好的迭代式编辑能力[20] - 隐式条件推断是目前智能体普遍最薄弱的能力项,即便表现最好的系统也难以在格式复现与结构一致性上完全正确[20] - 稳定性、文件处理链路、隐式结构理解能力及跨工具的状态管理是决定智能体能否承担一天工作量的关键环节[21] 技术演进与未来展望 - 预计到2026年,智能体将开始挑战One-Week的人类工作量,相关评测集已在构建中;一周尺度任务将呈现明确的行业语境(如金融、医疗、法律),数据获取成本显著上升[23] - 随着任务复杂度提升,依赖静态数据集和离线构建的训练与评测方式显现局限,未来发展方向是让智能体具备主动学习能力,通过在实际运行中收集经验、评估修正来形成稳定策略[24] - 长期技术演进可能依赖于在线学习与真实世界强化学习,使模型在部署后能持续获取实践知识并适应[24] - 长程任务智能体的发展可类比自动驾驶,实现从有限路段到通用路段、从频繁人工干预到长时无干预的转变;有效的数据积累将催生高可靠智能体系统,优先构建用户数据飞轮的公司将率先实现通用智能体的“完全自动驾驶”时刻[25]
真高管的长成:小B、Nick与老A的故事
36氪· 2025-08-21 09:33
文章核心观点 - 文章通过一个虚构公司及其高管小B的成长故事,探讨了“真高管”的真实成长路径,挑战了将“职业等级体系”等同于高管发展机制的传统观念 [4][5][83] - “真高管”的成长更依赖于在关键职责台阶上的实战历练、决策强度以及公司提供的成长空间,而非机械地遵循细化的职级晋升体系 [3][79][81] - 公司发展过程中,创始人、组织机制和关键人才引进(如CHO Nick)共同塑造了能够孕育“真高管”的土壤 [30][40][55] 公司发展历程与规模演变 - 公司从创业到成为中大规模上市公司,历时15年,员工从十多人增长至超过**三千人**,市值曾达到**300-500亿** [7][9][15] - 发展分为五个阶段:萌芽阶段(半年,十多人)[11]、初创公司(一年半,大几十人,营业额几千万)[12]、中小规模公司(5年,几百人,营业额超十亿)[13]、中等规模公司(4年,超一千五百人,营业额大几十亿并上市)[14]、中大规模上市公司(上市后两年,超三千人,营业额超**120亿**)[15] 组织架构与职级体系的演变 - 组织层级随规模扩大而裂变:从萌芽期的两层 [16],到初创期的三层 [20],再到中小规模期的四层 [25],进而演变为中等规模期的五层 [32],最终在中大规模上市公司阶段分化为六层 [50][53] - 公司在中等规模末期引入了包含13个级别的正式职业等级体系(从P1操作1级到M9总裁级)[46][47],但故事主角小B的成长路径与该体系描述的“逐级晋升”模式严重不符 [60][63] 关键人物“小B”的成长路径与职责跃迁 - 小B在25岁时以经理(M1)身份加入创业公司,15年后成长为40岁的COO(首席运营官,M8高级副总裁级),是唯一从创业期留存并晋升至高层的员工 [7][9][55] - 其实际成长经历了五个关键的职责台阶(L0-L4),而非职级体系的多次晋升 [69][70]: - L0任务级:执行具体市场任务 [69] - L1模块级:作为经理独立带领十余人团队,负责单一业务模块 [21][69] - L2多模块级:在外部招聘的总监Lisa指导下,学习管理市场部多个关联模块,培养“策略感” [27][29][69] - L3全模块级:成功担任市场部总监多年,建立部门竞争力,并与核心部门协同 [29][69] - L4多要素级:先后担任海外业务线总经理和COO,管理跨职能的综合性业务,需要独立做出大量经营决策 [43][55][70] - 在引入职级体系时,小B直接被定为M7副总裁级,此后仅有一次晋升至M8,其两次关键职务变动(经理变总监、总监变总经理)更多是基于业务需要而非体系内的晋升 [63][64] 人才引进、培养与流失 - 早期招聘注重激情和学习力,但对外部资深人才的引进多次失败(如供应链总监Mark)[29][30] - 引入HRVP Nick后,公司系统化提升了人才标准与招聘流程,成功引入了大量中高层骨干,支撑了公司从中等向中大规模发展 [38][40] - Nick推动了管培生项目(招聘985硕士)和战略绩效管理机制,提升了人才梯队质量和评价客观性 [38][39][42] - 创业元老(如联创老李)和部分早期员工因专业能力无法匹配公司发展规模而逐渐退出日常管理 [41] 创始人“老A”的领导与用人反思 - 老A在第三次创业中特别重视人才与组织,早期善于发现并给予年轻人机会(如小B)[7][8] - 在用人上有过失误总结:认识到部门负责人(-1层)必须具备主动策略能力,而非仅是执行者;同时意识到自己“自以为懂”某个专业会妨碍对问题的客观评估 [30][48] - 其领导风格被评价为“善于被领导”,给予了高管(如Nick、小B)较大的决策空间,这是吸引和保留“真高管”的关键因素 [55][80] 当前公司面临的挑战与未来思考 - 上市后公司面临三大挑战:海外供应链风险、国内与海外管理体系拉通、以及来自创新型小公司的产品竞争 [57] - 在超过三千人的规模下,组织面临“转型升级”的难题,但基层员工普遍感觉形势大好,危机感难以传递 [58][59] - 核心高管团队(老A、小B、Nick)开始反思:在正规化的职级体系下,如何避免员工只关注晋升标准,以及如何继续创造能够培养“真高管”的“决策强度”和高成长机会 [79][81]