我们离Coding领域的「AGI时刻」还有多远？字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准

文章核心观点 - 当前AI编程领域存在认知错觉，即认为Coding Agents能独立完成复杂任务就等同于实现编程领域的AGI，但真正的项目级开发远不止局部代码生成[2] - 首个评估编码智能体端到端仓库生成能力的基准测试NL2Repo-Bench发布，旨在从“人类不再直接写代码”的愿景出发，严格评估智能体从零生成完整、可运行代码仓库的能力[2][5] - 基准测试结果显示，当前最强的Coding Agent（Claude 4.5）整体通过率仍低于40%，多数模型表现仅在20%左右，表明在真实复杂的项目级开发任务上，AI与AGI愿景仍有巨大差距[20] NL2Repo-Bench基准测试概述 - NL2Repo-Bench是首个专门评估编码智能体端到端仓库生成能力的基准测试，由字节跳动Seed、南京大学、北京大学等机构联合打造[2] - 基准测试要求智能体从完全空白的初始工作空间开始，仅依据平均长度超1.8万token的长篇需求文档，自主完成需求理解、开发、测试、多文件协同管理等全链路工作，最终产出可安装、可运行的代码仓库[5] - 基准测试采用“零代码执行评估”机制，正确性严格通过在原始项目的测试套件中运行生成的代码来衡量[5][7] 评测数据集构建与任务选取 - 基准测试从GitHub挑选了104个拥有完备pytest测试用例的Python开源项目作为任务[5][14] - 任务筛选设定了多维准入门槛：近3年有更新、GitHub星数至少为10、包含清晰目录结构和完整测试用例、代码总行数需在300行以上（大部分超1000行，部分过万行）、覆盖工具类、框架类、算法类等多个Python库类型[8][9][10][11][12] - 选择Python Library级别仓库是因为其开源属性与规范化程度契合验证机制，为评估仓库级代码生成提供了科学的实验场[12] 评测流程与质量控制 - 为确保任务文档质量，构建了自动化工具与人工深度参与相结合的验证体系[16] - 技术流程包括：利用静态扫描工具提取关键架构信息；通过“人工专家+AI工具”双重校验确保需求描述无遗漏；精细化配置评测环境以消除环境波动干扰[18] - 每项任务必须通过人工文档审核、静态工具检测、镜像环境验证及预实验验证四个阶段，形成全生命周期的质量控制闭环[18] 主要Coding Agent性能表现 - 在NL2Repo-Bench测试中，表现最佳的Claude 4.5整体通过率为40.2%，多数模型整体表现仅在20%左右[20][21] - 模型表现随任务难度上升而快速下降：在简单任务（代码行数<1.5k）中，Claude 4.5通过率为51.8%；在中等任务（1.5k-4k行）中为44.5%；在困难任务（>4k行）中降至25.1%[21] - GPT-5表现意外掉队，整体得分仅为21.7%，分析认为其交互策略存在缺陷[20][21] 模型开发策略的典型问题与消融实验 - 模型开发策略存在典型问题：早停（缺乏长程规划）、未终止（频繁等待用户指令）、盲目编辑与导航陷阱（缺乏系统性规划）[23] - 消融实验1：交互轮次增加到200次左右可显著提高模型表现，但即使在“开卷考试”（提供测试用例）条件下，模型也难以突破60分[22] - 消融实验2：为Claude 4.5提供测试用例后，其整体得分从40.2%提升至59.4%，但在各难度任务上的通过率（Pass@1）依然较低，表明当前Coding Agent即使有辅助也较难完成完整仓库的长程开发[25][26]