今天，我们推出xbench

核心观点 - 红杉中国推出全新AI基准测试工具xbench，旨在构建科学、长效且真实反映AI客观能力的评测体系，重点关注AI系统在真实场景的效用价值和长青评估机制 [1] - xbench采用双轨评估体系，同时追踪模型的理论能力上限与Agent的实际落地价值，并通过动态更新测试内容确保时效性和相关性 [2] - 首期发布包含科学问题解答测评集（xbench-ScienceQA）和中文互联网深度搜索测评集（xbench-DeepSearch），并对主要产品进行综合排名 [3] 双轨评估体系 - AGI Tracking评测：验证模型在特定能力维度上的智能表现，挖掘"智能"而非"系统"的边界，如xbench-ScienceQA和xbench-DeepSearch [12][17] - Profession Aligned评测：聚焦现实生产场景，考核Agent在真实场景下的交付结果和商业价值，如招聘和营销领域的垂类Agent评测 [13][22] 首期评测集 - xbench-ScienceQA：测试研究生水平的学科知识和推理能力，题目来自顶级院校博士和行业专家，每季度更新一次 [19] - xbench-DeepSearch：考察自主规划、信息收集、推理分析和总结归纳的深度搜索能力，适应中文互联网环境，每月汇报模型表现 [20] 长青评估机制 - 通过动态更新题目扩充评估集，缓解题目泄露问题，确保评估的时效性和相关性 [11] - 采用项目反应理论（IRT）追踪Agent能力的持续增长，捕捉不同时间维度的能力变化 [31][33] 专业工作流程拆解 - 以招聘专家为例，拆解工作任务如JD需求拆解、人才画像定位、候选人经历补全等，标注经济价值和可评测性 [26] - 通过与头部猎头企业和营销企业合作，构建xbench-Profession-Recruitment和xbench-Profession-Marketing评测框架 [27] 技术市场匹配（TMF） - 通过效果-成本图划分市场接受区和技术可行区，追踪AI技术突破与市场需求的契合点 [35] - 专业领域经历未达成TMF、Agent与Human共同工作、专业化Agent三个阶段，AI技术突破和专家参与是关键 [38] 未来关注方向 - 2025年重点关注AI在基础智能与专业生产力上的进展，如多模态理解、长期记忆、可信度等能力 [16][21] - 计划拓展金融、法律、销售等高价值专业领域的评估任务体系，联合行业专家共建 [27]