Anthropic通过“Marlin”项目提升Claude Code的工程化能力 - Anthropic正通过代号“Marlin”的项目,利用约1000名人类软件工程师提升其AI编程工具Claude Code的表现,目标是让代码输出更接近专业开发者,即更干净、可靠和易于维护[2] - 该项目由数据标注公司Snorkel AI运营,承包商需对模型生成的代码进行A/B测试,选择偏好结果,并评估是否满足提示词细节要求,本质是训练模型写出更简化、更易维护的代码[3] - 任务设计模拟真实开发场景,承包商需从GitHub仓库创建类似真实开发流程的PR(如新增功能、修复漏洞),并编写提示词说明任务,重点在于优化代码结构而非改变产品功能[3] - 承包商需从正确性、安全性、可靠性和可维护性角度评估代码,例如在一项安全修复任务中,需确保方案能阻止命令注入攻击且不误伤合法白名单选项[4] - 参与该项目的承包商每完成一项创建提示词和审查代码的任务,可获得280美元报酬,每项任务通常耗时约一小时[2] Claude Code在复杂工程任务中面临质量挑战 - 用户反馈显示,自2025年2月更新后,Claude Code在处理复杂工程任务时表现明显退化,已被认为“无法被信任用于复杂工程工作”[6] - 对6852个Claude Code会话文件、17871个thinking blocks以及234760次工具调用的定量分析显示,“thinking content redaction”的推出与复杂、长会话工作流中的质量退化高度相关[7] - 分析显示,模型在修改代码前的阅读行为减少:表现较好阶段,每次编辑前平均有6.6次文件读取;退化阶段降至2.0次,相当于修改前研究量减少约70%,导致更容易做出“没读就改”的操作[8] - 模型行为出现异常,包括更多推理循环、输出中频繁出现自我修正表达(如“等等”)、更倾向于选择“最简单”方案而非正确方案,以及更容易提前停止或将问题归因于外部因素[8] - 有用户表示,过去四个月体验明显变差,Claude Code频繁出现“做错后道歉”、忘记基础工作流程、执行任务时突然停止等问题,导致用户需转向其他工具(如Codex)进行结果事实核查[9] AI生成代码在行业中的普及与影响 - Anthropic CEO曾预测,未来3-6个月AI可能写出90%的代码,12个月后可能几乎写出全部代码,这是公司发力编程的现实动力[12] - 谷歌CEO表示,公司75%的新代码已由AI生成,而在2024年第三季度,该比例超过四分之一[13] - Y Combinator管理合伙人表示,在W25批次中,约四分之一创业公司的代码库有95%由AI生成[13] - Anthropic披露,截至2026年5月,其合并进生产代码库的代码中,超过80%由Claude编写;而在Claude Code于2025年2月发布研究预览版之前,这一比例仅为个位数[14] - Anthropic典型工程师每天合并的代码量已达到2024年的8倍,但公司承认代码行数并非完美的生产力指标,可能高估了真实提升[14] 开源社区对AI生成代码的治理策略 - 开源编程语言Zig明确禁止提交任何AI辅助生成的代码,包括大模型生成、改写、编辑、构思或调试过的内容,其总裁将AI辅助贡献称为“基本都是垃圾”[16][17] - Linux社区发布了《AI Coding Assistants》指导文件,允许AI辅助开发,但要求所有贡献必须严格遵守内核开发流程、编码风格和补丁提交规范[18] - Linux内核规定,所有AI生成代码必须由人类提交者审查,确保符合许可要求,且AI agent不得添加Signed-off-by标签,法律责任完全由人类承担[19] - Linux要求通过“Assisted-by”标签对AI工具进行归因,格式示例为“Assisted-by: Claude:claude-3-opus coccinelle sparse”,以追踪AI在开发流程中的作用[20] 企业将AI集成至软件交付流程的实践 - Cloudflare在内部CI/CD流程中部署了AI代码审查系统,该系统运行约一个月,覆盖5169个代码仓库,完成131246次审查,涉及48095个merge request[21] - 该系统平均每个merge request被审查2.7次,审查完成时间中位数为3分39秒,平均每次审查成本为1.19美元,P99成本为4.45美元[21] - Cloudflare为AI审查设置了明确决策规则:无问题或轻微建议则批准;存在警告但无生产风险可带评论批准;多个警告形成风险模式则撤销批准;出现严重问题或安全风险则阻止合并[22] - 公司保留人工“break glass”通道,允许人类reviewer强制批准紧急修复,但相关覆盖行为会被记录[23] - Cloudflare将merge request按复杂度分为trivial(10行以内)、lite(100行以内)和full三档,并依此选择不同模型进行审查,系统缓存命中率达到85.7%,节省了估计五位数美元成本[25] - Cloudflare明确表示,AI代码审查系统不能替代人类reviewer,其在架构判断、跨系统影响等方面仍有明显限制,定位是自动化第一轮初筛[24]
Anthropic 被曝雇1000名人类工程师“培训”Claude Code,时薪280美元:AI 编程越进化越离不开真人兜底
AI前线·2026-06-06 13:32