研究核心发现 - AI编程工具使经验丰富的开源开发者完成任务的时间平均增加19% [1][9] - 开发者普遍预期AI能提升效率24%,但实际效果与感知相反,存在显著“快感错觉” [2][9][21] - 研究采用随机对照实验方法,在真实环境中测试AI工具使用效果,是目前衡量因果关系最严格的方法 [4][19] 实验设计与执行 - 实验追踪16名高级开发者,在其开源项目中完成246个实际任务,任务涵盖复杂模块开发与修复 [7] - 任务被随机分配至使用AI工具组(主要使用Cursor Pro,集成Claude 3.5和Claude 3.7 Sonnet模型)与不使用AI工具组 [7] - 通过屏幕录制验证执行情况,并利用统计方法剔除任务难度差异干扰,测量实际耗时与预期耗时的差距 [7] AI对工作流程的影响 - AI工具启用后,开发者在“主动编码”上的时间减少,更多时间花费在提示设计、AI产出审查、等待响应及理解生成内容上 [10][11][14] - 工作流程变得碎片化,开发者频繁切换于提示生成、回顾产出、人工修正等任务,心理节奏发生变化 [15][16] - 开发者从“写代码”转变为“与AI沟通如何写代码”,这种交互过程看似充实但并未提升最终产出速度 [12] 对AI评估体系的质疑 - 研究指出当前主流AI评估基准(如SWE-Bench和RE-Bench)存在严重偏差,测试环境高度理想化,与真实项目复杂性脱节 [18] - 传统测试为人工设置的小型孤立题目,无需考虑上下文、团队协作及历史遗留负担,导致对AI性能的评估过于乐观 [18] - METR的随机对照实验在真实任务流程中直接部署和测量AI,能揭示主观感知与客观现实的偏差,是更有价值的测试方法 [19][20] AI工具的应用场景与价值重估 - 对于新项目或快速原型开发,AI能提供帮助;但对于成熟的大型复杂项目,AI可能因需要大量补充说明和频繁审查而成为负担 [14] - AI工具的价值可能并非直接“提高效率”,而是“改造流程”,即改变工作节奏、重构问题表达方式和干扰注意力分配 [23] - 企业、教育机构及平台服务商若仅依赖开发者主观感知或存在偏差的基准测试,可能全面高估AI工具的价值 [21][22]
看似加速,实则拖慢:AI 写代码让开发者效率倒退19%
36氪·2025-07-14 17:48