我们离Coding领域的「AGI时刻」还有多远?字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准
机器之心·2026-02-13 09:02

文章核心观点 - 当前AI编程领域存在认知错觉,即认为Coding Agents能独立完成复杂任务就等同于实现编程领域的AGI,但真正的项目级开发远不止局部代码生成[2] - 首个评估编码智能体端到端仓库生成能力的基准测试NL2Repo-Bench发布,旨在从“人类不再直接写代码”的愿景出发,严格评估智能体从零生成完整、可运行代码仓库的能力[2][5] - 基准测试结果显示,当前最强的Coding Agent(Claude 4.5)整体通过率仍低于40%,多数模型表现仅在20%左右,表明在真实复杂的项目级开发任务上,AI与AGI愿景仍有巨大差距[20] NL2Repo-Bench基准测试概述 - NL2Repo-Bench是首个专门评估编码智能体端到端仓库生成能力的基准测试,由字节跳动Seed、南京大学、北京大学等机构联合打造[2] - 基准测试要求智能体从完全空白的初始工作空间开始,仅依据平均长度超1.8万token的长篇需求文档,自主完成需求理解、开发、测试、多文件协同管理等全链路工作,最终产出可安装、可运行的代码仓库[5] - 基准测试采用“零代码执行评估”机制,正确性严格通过在原始项目的测试套件中运行生成的代码来衡量[5][7] 评测数据集构建与任务选取 - 基准测试从GitHub挑选了104个拥有完备pytest测试用例的Python开源项目作为任务[5][14] - 任务筛选设定了多维准入门槛:近3年有更新、GitHub星数至少为10、包含清晰目录结构和完整测试用例、代码总行数需在300行以上(大部分超1000行,部分过万行)、覆盖工具类、框架类、算法类等多个Python库类型[8][9][10][11][12] - 选择Python Library级别仓库是因为其开源属性与规范化程度契合验证机制,为评估仓库级代码生成提供了科学的实验场[12] 评测流程与质量控制 - 为确保任务文档质量,构建了自动化工具与人工深度参与相结合的验证体系[16] - 技术流程包括:利用静态扫描工具提取关键架构信息;通过“人工专家+AI工具”双重校验确保需求描述无遗漏;精细化配置评测环境以消除环境波动干扰[18] - 每项任务必须通过人工文档审核、静态工具检测、镜像环境验证及预实验验证四个阶段,形成全生命周期的质量控制闭环[18] 主要Coding Agent性能表现 - 在NL2Repo-Bench测试中,表现最佳的Claude 4.5整体通过率为40.2%,多数模型整体表现仅在20%左右[20][21] - 模型表现随任务难度上升而快速下降:在简单任务(代码行数<1.5k)中,Claude 4.5通过率为51.8%;在中等任务(1.5k-4k行)中为44.5%;在困难任务(>4k行)中降至25.1%[21] - GPT-5表现意外掉队,整体得分仅为21.7%,分析认为其交互策略存在缺陷[20][21] 模型开发策略的典型问题与消融实验 - 模型开发策略存在典型问题:早停(缺乏长程规划)、未终止(频繁等待用户指令)、盲目编辑与导航陷阱(缺乏系统性规划)[23] - 消融实验1:交互轮次增加到200次左右可显著提高模型表现,但即使在“开卷考试”(提供测试用例)条件下,模型也难以突破60分[22] - 消融实验2:为Claude 4.5提供测试用例后,其整体得分从40.2%提升至59.4%,但在各难度任务上的通过率(Pass@1)依然较低,表明当前Coding Agent即使有辅助也较难完成完整仓库的长程开发[25][26]