AI基准测试

搜索文档
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
xbench评测集正式开源
红杉汇· 2025-06-17 21:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench,强调不再单纯追求测评问题难度,而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动,最初为内部工具,经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新,关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级,开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系:AGI Tracking评估技术能力上限,Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求,大学教授转化为评估指标,确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一,GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素,谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色,但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统,避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化,需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
36氪· 2025-05-29 07:34
AI大模型评测现状 - AI大模型评测目前处于"百家争鸣"状态,包括清华大学C-Eval、上海交通大学CMMLU、伯克利Chatbot Arena等学术机构榜单,以及红杉中国xbench等民间测试工具 [3] - 当前评测存在刷榜问题,模型通过针对性训练提高特定榜单成绩,但泛化能力未真正提升,如GSM8k和MATH测试中模型正确率可达80% [13] - Meta的Llama 4通过提供特殊版本成为大模型竞技场排名第一的开源模型,显示当前评测体系存在漏洞 [8] 谷歌LMEval框架 - 谷歌推出开源框架LMEval,旨在为大语言模型和多模态模型提供标准化评测工具,简化评测流程 [4] - LMEval支持跨平台测试(Azure/AWS/HuggingFace等),覆盖文本/图像/代码多领域,并能识别模型规避策略 [6] - 框架引入Giskard安全评分机制,测试数据本地加密存储,确保安全性 [6] - LMEval并非直接榜单,而是标准化评测流程,解决多平台API/数据格式不统一问题 [16][17] 行业竞争格局 - 大模型竞技场排名显示,Google Gemini 2.9 Pro以1439分领先,Meta Llama 4以1417分紧随其后,OpenAI GPT-4以1418分位列第三 [14] - 成本对比显示,Gemini 2.0 Flash每输入输出价格为$0.17,低于Llama 4 Maverick的$0.19-$0.49和GPT-40的$4.38 [11] - 性能指标上,Llama 4在LiveCodeBench(49.4vs36.0)、MMLU Pro(82.2vs79.1)等测试中领先Gemini [10] 行业挑战 - 当前评测体系存在"基准作弊"问题,微软CEO纳德拉直言AGI里程碑宣称只是无意义的刷榜行为 [13] - 科学/长效/真实构成"不可能三角",类似PC/手机行业针对评测软件优化的情况在AI领域重现 [16] - 去中心化解决方案导致开发者需应对多套测试标准,大幅增加时间成本 [16]
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 10:37
文章核心观点 - 传统AI基准测试因模型普遍满分而失效,需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试,采用双轨评估体系和长青机制,聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集,并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标,解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1:评估AI系统能力上限与技术边界(如ScienceQA测评集)[3][4] - 主线2:量化真实场景效用价值,基于工作流程和社会角色构建业务标准(如Recruiting测评集)[3][7] - 首期AGI Tracking测评显示:GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2),在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合,保持时效性[3][8] - 建立动态题目扩充集,通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标,追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中:GPT-4招聘领域得分78.5,营销领域50.8均列第一[11] - 联合行业专家共建动态评估集,覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评,发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性,提出双轨制解决方案[5][6]
一个打破信息差的神器,用了就离不开
佩妮Penny的世界· 2025-05-26 16:07
产品概述 - 沉浸式翻译是一款浏览器双语对照翻译插件 由独立开发者Owen于2022年底创立 灵感源自双语纸质书《芭巴拉少校》的阅读体验 初版开发仅耗时1-2周 [2] - 当前全球用户规模达千万级 2024年获评Google年度全球最佳扩展程序 早期50万用户完全通过口碑传播获取 [2] 核心功能场景 外文信息高效浏览 - 支持金融时报 华尔街日报 彭博等财经媒体及红杉 A16Z等顶级VC博客的双语对照翻译 显著提升非母语阅读效率 [3][4] - 展示FTtimes页面翻译效果 实现专业内容精准转换 如红杉报告《Generative AI's Act Two》的对照呈现 [7] 视频内容实时翻译 - 支持YouTube等平台视频的实时双语字幕生成 解决英文语法倒置导致的阅读障碍 [10] - Pro会员独享AI智能上下文字幕翻译功能 实现自然断句与语义贴合 [11] 专业文档深度处理 - BabelDOC PDF工具可自动识别学术论文/招股书/白皮书结构 保持翻译后数据可视化与原文档布局一致 开源地址已公开 [16] - 演示汇丰人形机器人报告翻译效果 完整保留图表及数据 包括2034年市场规模预测(熊市30 7亿美元 牛市380 7亿美元) [18][20] - 与Zotero参考文献管理软件集成 支持本地文献翻译 [23] 特色交互设计 - 三击空格键实现中英文搜索词自动替换 优化Google等搜索引擎使用体验 [26] - 提供鼠标悬停翻译 划词翻译及朗读功能 支持十余种翻译引擎(含DeepSeek ChatGPT DeepL)及垂直领域术语库 [29] 技术架构与商业模式 - 集成多模态大模型技术 翻译质量随AI基础模型进步持续提升 [29] - 免费版采用微软/谷歌翻译引擎 Pro会员享有批量翻译 AI长文本处理等增值服务 团队持续快速迭代 [33] - 开发者可接入国产大模型API实现自定义翻译接口 [31] 行业价值定位 - 致力于消除语言障碍实现信息平权 推动母语用户无障碍获取全球网络资源 [34] - 产品地址与PDF专用翻译入口已公开 提供周卡体验资格等推广活动 [35]
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经· 2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心· 2025-05-26 12:12
AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆",各大测试榜单出现高分甚至满分现象,难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系(能力上限评估+真实场景效用价值量化)和长青评估机制,长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) [8] xbench核心创新 - 双轨评估体系: - 主线1:评估AI系统能力上限与技术边界 - 主线2:量化AI系统在真实场景的效用价值,基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制:持续维护并动态更新测试内容,确保时效性和相关性,定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念,考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系,发现主流模型"刷爆"题目速度加快,基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题: - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA(AGI Tracking):最高分60.8(03-high),第二名57.2(Gemini 2.5 Pro) [13] - xbench-DeepSearch(AGI Tracking):最高分65+(03),第二名60+(o4-mini-high) [13] - 招聘领域Profession Aligned:最高分78.5(03),第二名64.4(Perplexity-Search) [13] - 营销领域Profession Aligned:最高分50.8(03),第二名47.6(Claude-3.7-Sonnet) [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]
今天,我们推出xbench
红杉汇· 2025-05-26 07:20
核心观点 - 红杉中国推出全新AI基准测试工具xbench,旨在构建科学、长效且真实反映AI客观能力的评测体系,重点关注AI系统在真实场景的效用价值和长青评估机制 [1] - xbench采用双轨评估体系,同时追踪模型的理论能力上限与Agent的实际落地价值,并通过动态更新测试内容确保时效性和相关性 [2] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名 [3] 双轨评估体系 - **AGI Tracking评测**:验证模型在特定能力维度上的智能表现,挖掘"智能"而非"系统"的边界,如xbench-ScienceQA和xbench-DeepSearch [12][17] - **Profession Aligned评测**:聚焦现实生产场景,考核Agent在真实场景下的交付结果和商业价值,如招聘和营销领域的垂类Agent评测 [13][22] 首期评测集 - **xbench-ScienceQA**:测试研究生水平的学科知识和推理能力,题目来自顶级院校博士和行业专家,每季度更新一次 [19] - **xbench-DeepSearch**:考察自主规划、信息收集、推理分析和总结归纳的深度搜索能力,适应中文互联网环境,每月汇报模型表现 [20] 长青评估机制 - 通过动态更新题目扩充评估集,缓解题目泄露问题,确保评估的时效性和相关性 [11] - 采用项目反应理论(IRT)追踪Agent能力的持续增长,捕捉不同时间维度的能力变化 [31][33] 专业工作流程拆解 - 以招聘专家为例,拆解工作任务如JD需求拆解、人才画像定位、候选人经历补全等,标注经济价值和可评测性 [26] - 通过与头部猎头企业和营销企业合作,构建xbench-Profession-Recruitment和xbench-Profession-Marketing评测框架 [27] 技术市场匹配(TMF) - 通过效果-成本图划分市场接受区和技术可行区,追踪AI技术突破与市场需求的契合点 [35] - 专业领域经历未达成TMF、Agent与Human共同工作、专业化Agent三个阶段,AI技术突破和专家参与是关键 [38] 未来关注方向 - 2025年重点关注AI在基础智能与专业生产力上的进展,如多模态理解、长期记忆、可信度等能力 [16][21] - 计划拓展金融、法律、销售等高价值专业领域的评估任务体系,联合行业专家共建 [27]