大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

核心观点 - 新基准测试集BrowseComp-ZH显示主流大模型在中文网页检索任务中表现极差，GPT-4o准确率仅6.2%，最佳模型OpenAI DeepResearch也仅42.9% [1][13][26] - 中文互联网环境具有信息碎片化、搜索入口多样、语言表达复杂等独特挑战，需原生设计测试集而非简单翻译英文基准 [4][5][6] - 模型需具备多跳推理、信息整合能力而非单纯记忆或单次检索，才能有效应对中文网页任务 [14][15][19] 测试集设计 - 采用逆向设计法构建289道高难度中文多跳检索题，覆盖11大领域，确保问题有唯一可验证答案 [7] - 题目模拟真实中文互联网痛点：信息分散于百度百科/微博等多平台、语言含省略/典故、搜索引擎质量参差 [9] - 验证显示百度/Bing/Google首屏无法直接命中答案，人工确认问题结构清晰且答案唯一 [10] 模型表现分析 - 纯记忆模型准确率普遍低于10%，DeepSeek-R1（23.2%）比无搜索版本（8.7%）高14.5%，凸显推理能力重要性 [16][18] - 多轮检索模型全面领先，单次检索模型（如Kimi、Yuanbao）准确率低至个位数 [20] - 部分模型开启搜索功能后性能反降，如DeepSeek-R1准确率从23.2%跌至7.6%，因未能融合网页与既有知识 [22][23] 头部模型排名 - OpenAI DeepResearch以42.9%居首，豆包Deep Search（26.0%）和Perplexity Research模式（22.6%）分列二三名 [27][26] 行业影响 - 数据集已开源，旨在推动LLM中文信息处理能力发展，助力构建真正"会用中文上网"的智能体 [24][25] - 研究团队计划扩充样本规模、拓展问答形式并分析模型推理路径 [26]