大语言模型编程能力评估

搜索文档
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 10:43
大语言模型编程能力评估现状 - 当前市场普遍高估大语言模型(LLMs)的编程能力,如AlphaCode宣称达到人类竞技编程水平,GPT-4o被报道能通过谷歌高级面试,但实际评测显示存在显著"宣传与现实的认知鸿沟" [2][3] - 传统评估体系(HumanEval/MBPP)通过率普遍超过90%,已无法区分先进模型的细微差异,且存在数据泄漏风险(如Codeforces题目可能被预训练数据包含) [4] - 现有Elo评分体系存在周期长、选手水平波动大等问题,效率指标(运行时间/内存)也仅提供粗略评估 [4] OIBench评估基准创新 - 该数据集包含212道高难度信息学奥赛级别原创题目,经严格检索确保未在公开平台出现,抗数据污染能力显著 [8][10] - 题目收录标准严苛:要求GPT-4o等标杆模型中最多仅1个能解出,测试用例数量对标真实竞赛环境 [10][11] - 采用中英文双语支持,每题配备C++标准解答和覆盖边界情况的测试用例,评测维度包括代码理解/生成/推理效率 [10][17] 主流模型评测结果 - 18个主流模型zero-shot评测显示:最高分o4-mini-high仅36.35分,远低于人类竞赛水平;GPT-4o通过率仅2.6%,Claude3.5 Sonnet在动态规划题错误率达80% [5][12] - 推理模型表现突出:o4-mini-high平均得分21.4%,显著高于普通模型(3.6%);闭源模型平均14.5分优于开源模型(6.3分) [19] - 伪代码提示使所有模型表现提升,强推理模型提升最显著;DeepSeek-V3-0324因采用链式推理蒸馏方案表现亮眼 [18][19] 人机对比研究 - 邀请985高校ACM选手参与对比测试,o4-mini-high排名超过42%人类选手,但多数模型仅能超越不到20%人类 [30][31] - 模型表现分三类:低谷型(无长链推理能力)、双峰型(特定题型优势)、橄榄型(仅o4-mini-high具备全面推理特征) [31] 未来评测范式演进 - Code Agent评测需转向人机协作评估,现有SWE-bench等自动化评测忽视交互流程质量 [33] - 计划举办人机协作编程竞赛,从意图理解/交互轮次/决策效率等维度建立首个人机协作榜单 [38][39]