算法推理

搜索文档
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 17:34
大语言模型在竞技编程领域的表现评估 核心观点 - 当前前沿大语言模型(如GPT-4、Gemini等)在竞技编程领域与人类大师级选手仍存在显著差距,尤其在复杂算法推理和边界情况分析上表现欠佳 [1][12][18] - 模型的高分更多依赖外部工具和多次尝试(pass@k),而非真实推理能力 [3][17][34] - 在知识密集型和逻辑密集型问题上表现较好,但在观察密集型和分类讨论问题上表现较差 [20][22][24] 模型性能表现 - **整体表现**:表现最好的模型o4-mini-high在中等难度题上pass@1仅为53.5%,高难度题完全无法通过(0%),而人类专家可稳定发挥 [12][15] - **排行榜数据**: - o4-mini-high:中等难度53.5%,简单83.1%,评分2116(前1.5%) [15] - Gemini 2.5 Pro:中等25.4%,简单70.4%,评分1992 [15] - DeepSeek R1:中等9.9%,简单56.3%,评分1442 [15] 不同算法范式表现差异 - **优势领域**: - 知识密集型(线段树、图论等):模型可通过拼接训练数据中的模板解决 [22] - 逻辑密集型(动态规划、二分搜索等):受益于记忆化脚手架代码 [23] - **劣势领域**: - 观察密集型(博弈论、贪心算法等):评分骤降至1500以下,缺乏新颖见解能力 [24] - 分类讨论:所有模型评分低于1500,无法处理边界情况 [25] - 交互式问题:o4-mini-high评分骤降至1500,其他模型表现更差 [26] 失败原因分析 - **主要错误类型**: - 概念性错误:o3-mini比人类多犯34个算法逻辑错误 [28][30] - 实现优势:比人类少犯25个实现逻辑错误,几乎无运行时错误 [30] - 交互问题异常:80%提交被判"空闲时间超限" [31] 工具与多次尝试的影响 - **pass@k效果**:o4-mini-medium评分从pass@1的1793升至pass@10的2334,但仍低于工具加持的2719分 [34][36] - **推理能力效果**: - 组合数学提升最大(DeepSeek R1比V3高1400分) [41] - 知识密集型提升显著(如线段树问题+700分) [42] - 观察密集型提升有限(博弈论提升最低或负增长) [42] 评测基准设计 - **LiveCodeBench Pro**:包含584道来自Codeforces、ICPC等顶级赛事的高质量题目,由奥赛选手标注算法类别 [6][7] - **研究团队**:包含ICPC世界总决赛参赛者等专业背景 [5]