Workflow
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位·2025-06-18 17:17

大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]