算法推理 - 财报，业绩电话会，研报，新闻

算法推理

搜索文档

谢赛宁团队新基准让LLM集体自闭，DeepSeek R1、Gemini 2.5 Pro都是零分

机器之心· 2025-06-18 17:34

大语言模型在竞技编程领域的表现评估核心观点 - 当前前沿大语言模型（如GPT-4、Gemini等）在竞技编程领域与人类大师级选手仍存在显著差距，尤其在复杂算法推理和边界情况分析上表现欠佳 [1][12][18] - 模型的高分更多依赖外部工具和多次尝试（pass@k），而非真实推理能力 [3][17][34] - 在知识密集型和逻辑密集型问题上表现较好，但在观察密集型和分类讨论问题上表现较差 [20][22][24] 模型性能表现 - **整体表现**：表现最好的模型o4-mini-high在中等难度题上pass@1仅为53.5%，高难度题完全无法通过（0%），而人类专家可稳定发挥 [12][15] - **排行榜数据**： - o4-mini-high：中等难度53.5%，简单83.1%，评分2116（前1.5%） [15] - Gemini 2.5 Pro：中等25.4%，简单70.4%，评分1992 [15] - DeepSeek R1：中等9.9%，简单56.3%，评分1442 [15] 不同算法范式表现差异 - **优势领域**： - 知识密集型（线段树、图论等）：模型可通过拼接训练数据中的模板解决 [22] - 逻辑密集型（动态规划、二分搜索等）：受益于记忆化脚手架代码 [23] - **劣势领域**： - 观察密集型（博弈论、贪心算法等）：评分骤降至1500以下，缺乏新颖见解能力 [24] - 分类讨论：所有模型评分低于1500，无法处理边界情况 [25] - 交互式问题：o4-mini-high评分骤降至1500，其他模型表现更差 [26] 失败原因分析 - **主要错误类型**： - 概念性错误：o3-mini比人类多犯34个算法逻辑错误 [28][30] - 实现优势：比人类少犯25个实现逻辑错误，几乎无运行时错误 [30] - 交互问题异常：80%提交被判"空闲时间超限" [31] 工具与多次尝试的影响 - **pass@k效果**：o4-mini-medium评分从pass@1的1793升至pass@10的2334，但仍低于工具加持的2719分 [34][36] - **推理能力效果**： - 组合数学提升最大（DeepSeek R1比V3高1400分） [41] - 知识密集型提升显著（如线段树问题+700分） [42] - 观察密集型提升有限（博弈论提升最低或负增长） [42] 评测基准设计 - **LiveCodeBench Pro**：包含584道来自Codeforces、ICPC等顶级赛事的高质量题目，由奥赛选手标注算法类别 [6][7] - **研究团队**：包含ICPC世界总决赛参赛者等专业背景 [5]