LiveCodeBench Pro - 财报，业绩电话会，研报，新闻

LiveCodeBench Pro

搜索文档

谢赛宁团队新基准让LLM集体自闭，DeepSeek R1、Gemini 2.5 Pro都是零分

机器之心· 2025-06-18 17:34

大语言模型在竞技编程领域的表现评估核心观点 - 当前前沿大语言模型（如GPT-4、Gemini等）在竞技编程领域与人类大师级选手仍存在显著差距，尤其在复杂算法推理和边界情况分析上表现欠佳 [1][12][18] - 模型的高分更多依赖外部工具和多次尝试（pass@k），而非真实推理能力 [3][17][34] - 在知识密集型和逻辑密集型问题上表现较好，但在观察密集型和分类讨论问题上表现较差 [20][22][24] 模型性能表现 - **整体表现**：表现最好的模型o4-mini-high在中等难度题上pass@1仅为53.5%，高难度题完全无法通过（0%），而人类专家可稳定发挥 [12][15] - **排行榜数据**： - o4-mini-high：中等难度53.5%，简单83.1%，评分2116（前1.5%） [15] - Gemini 2.5 Pro：中等25.4%，简单70.4%，评分1992 [15] - DeepSeek R1：中等9.9%，简单56.3%，评分1442 [15] 不同算法范式表现差异 - **优势领域**： - 知识密集型（线段树、图论等）：模型可通过拼接训练数据中的模板解决 [22] - 逻辑密集型（动态规划、二分搜索等）：受益于记忆化脚手架代码 [23] - **劣势领域**： - 观察密集型（博弈论、贪心算法等）：评分骤降至1500以下，缺乏新颖见解能力 [24] - 分类讨论：所有模型评分低于1500，无法处理边界情况 [25] - 交互式问题：o4-mini-high评分骤降至1500，其他模型表现更差 [26] 失败原因分析 - **主要错误类型**： - 概念性错误：o3-mini比人类多犯34个算法逻辑错误 [28][30] - 实现优势：比人类少犯25个实现逻辑错误，几乎无运行时错误 [30] - 交互问题异常：80%提交被判"空闲时间超限" [31] 工具与多次尝试的影响 - **pass@k效果**：o4-mini-medium评分从pass@1的1793升至pass@10的2334，但仍低于工具加持的2719分 [34][36] - **推理能力效果**： - 组合数学提升最大（DeepSeek R1比V3高1400分） [41] - 知识密集型提升显著（如线段树问题+700分） [42] - 观察密集型提升有限（博弈论提升最低或负增长） [42] 评测基准设计 - **LiveCodeBench Pro**：包含584道来自Codeforces、ICPC等顶级赛事的高质量题目，由奥赛选手标注算法类别 [6][7] - **研究团队**：包含ICPC世界总决赛参赛者等专业背景 [5]

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

量子位· 2025-06-18 17:17

大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没，通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题，题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%，难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100，远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建，在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题，分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择，如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%，组合数学类11%，动态编程类23%，贪心算法类28% [17] 模型表现分析 - 22款测试模型中，o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好，但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类，常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分，经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现，但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人，主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名，现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]