当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经·2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]