Workflow
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位·2025-05-06 12:24

核心观点 - 新基准测试集BrowseComp-ZH显示主流大模型在中文网页检索任务中表现极差,GPT-4o准确率仅6.2%,最佳模型OpenAI DeepResearch也仅42.9% [1][13][26] - 中文互联网环境具有信息碎片化、搜索入口多样、语言表达复杂等独特挑战,需原生设计测试集而非简单翻译英文基准 [4][5][6] - 模型需具备多跳推理、信息整合能力而非单纯记忆或单次检索,才能有效应对中文网页任务 [14][15][19] 测试集设计 - 采用逆向设计法构建289道高难度中文多跳检索题,覆盖11大领域,确保问题有唯一可验证答案 [7] - 题目模拟真实中文互联网痛点:信息分散于百度百科/微博等多平台、语言含省略/典故、搜索引擎质量参差 [9] - 验证显示百度/Bing/Google首屏无法直接命中答案,人工确认问题结构清晰且答案唯一 [10] 模型表现分析 - 纯记忆模型准确率普遍低于10%,DeepSeek-R1(23.2%)比无搜索版本(8.7%)高14.5%,凸显推理能力重要性 [16][18] - 多轮检索模型全面领先,单次检索模型(如Kimi、Yuanbao)准确率低至个位数 [20] - 部分模型开启搜索功能后性能反降,如DeepSeek-R1准确率从23.2%跌至7.6%,因未能融合网页与既有知识 [22][23] 头部模型排名 - OpenAI DeepResearch以42.9%居首,豆包Deep Search(26.0%)和Perplexity Research模式(22.6%)分列二三名 [27][26] 行业影响 - 数据集已开源,旨在推动LLM中文信息处理能力发展,助力构建真正"会用中文上网"的智能体 [24][25] - 研究团队计划扩充样本规模、拓展问答形式并分析模型推理路径 [26]