核心观点 - 红杉中国推出全新AI基准测试工具xbench,旨在构建科学、长效且真实反映AI客观能力的评测体系,重点关注AI系统在真实场景的效用价值和长青评估机制 [1] - xbench采用双轨评估体系,同时追踪模型的理论能力上限与Agent的实际落地价值,并通过动态更新测试内容确保时效性和相关性 [2] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名 [3] 双轨评估体系 - AGI Tracking评测:验证模型在特定能力维度上的智能表现,挖掘"智能"而非"系统"的边界,如xbench-ScienceQA和xbench-DeepSearch [12][17] - Profession Aligned评测:聚焦现实生产场景,考核Agent在真实场景下的交付结果和商业价值,如招聘和营销领域的垂类Agent评测 [13][22] 首期评测集 - xbench-ScienceQA:测试研究生水平的学科知识和推理能力,题目来自顶级院校博士和行业专家,每季度更新一次 [19] - xbench-DeepSearch:考察自主规划、信息收集、推理分析和总结归纳的深度搜索能力,适应中文互联网环境,每月汇报模型表现 [20] 长青评估机制 - 通过动态更新题目扩充评估集,缓解题目泄露问题,确保评估的时效性和相关性 [11] - 采用项目反应理论(IRT)追踪Agent能力的持续增长,捕捉不同时间维度的能力变化 [31][33] 专业工作流程拆解 - 以招聘专家为例,拆解工作任务如JD需求拆解、人才画像定位、候选人经历补全等,标注经济价值和可评测性 [26] - 通过与头部猎头企业和营销企业合作,构建xbench-Profession-Recruitment和xbench-Profession-Marketing评测框架 [27] 技术市场匹配(TMF) - 通过效果-成本图划分市场接受区和技术可行区,追踪AI技术突破与市场需求的契合点 [35] - 专业领域经历未达成TMF、Agent与Human共同工作、专业化Agent三个阶段,AI技术突破和专家参与是关键 [38] 未来关注方向 - 2025年重点关注AI在基础智能与专业生产力上的进展,如多模态理解、长期记忆、可信度等能力 [16][21] - 计划拓展金融、法律、销售等高价值专业领域的评估任务体系,联合行业专家共建 [27]
今天,我们推出xbench
红杉汇·2025-05-26 07:20