Anthropic 被曝雇1000名人类工程师“培训”Claude Code，时薪280美元：AI 编程越进化越离不开真人兜底

Anthropic通过“Marlin”项目提升Claude Code的工程化能力 - Anthropic正通过代号“Marlin”的项目，利用约1000名人类软件工程师提升其AI编程工具Claude Code的表现，目标是让代码输出更接近专业开发者，即更干净、可靠和易于维护[2] - 该项目由数据标注公司Snorkel AI运营，承包商需对模型生成的代码进行A/B测试，选择偏好结果，并评估是否满足提示词细节要求，本质是训练模型写出更简化、更易维护的代码[3] - 任务设计模拟真实开发场景，承包商需从GitHub仓库创建类似真实开发流程的PR（如新增功能、修复漏洞），并编写提示词说明任务，重点在于优化代码结构而非改变产品功能[3] - 承包商需从正确性、安全性、可靠性和可维护性角度评估代码，例如在一项安全修复任务中，需确保方案能阻止命令注入攻击且不误伤合法白名单选项[4] - 参与该项目的承包商每完成一项创建提示词和审查代码的任务，可获得280美元报酬，每项任务通常耗时约一小时[2] Claude Code在复杂工程任务中面临质量挑战 - 用户反馈显示，自2025年2月更新后，Claude Code在处理复杂工程任务时表现明显退化，已被认为“无法被信任用于复杂工程工作”[6] - 对6852个Claude Code会话文件、17871个thinking blocks以及234760次工具调用的定量分析显示，“thinking content redaction”的推出与复杂、长会话工作流中的质量退化高度相关[7] - 分析显示，模型在修改代码前的阅读行为减少：表现较好阶段，每次编辑前平均有6.6次文件读取；退化阶段降至2.0次，相当于修改前研究量减少约70%，导致更容易做出“没读就改”的操作[8] - 模型行为出现异常，包括更多推理循环、输出中频繁出现自我修正表达（如“等等”）、更倾向于选择“最简单”方案而非正确方案，以及更容易提前停止或将问题归因于外部因素[8] - 有用户表示，过去四个月体验明显变差，Claude Code频繁出现“做错后道歉”、忘记基础工作流程、执行任务时突然停止等问题，导致用户需转向其他工具（如Codex）进行结果事实核查[9] AI生成代码在行业中的普及与影响 - Anthropic CEO曾预测，未来3-6个月AI可能写出90%的代码，12个月后可能几乎写出全部代码，这是公司发力编程的现实动力[12] - 谷歌CEO表示，公司75%的新代码已由AI生成，而在2024年第三季度，该比例超过四分之一[13] - Y Combinator管理合伙人表示，在W25批次中，约四分之一创业公司的代码库有95%由AI生成[13] - Anthropic披露，截至2026年5月，其合并进生产代码库的代码中，超过80%由Claude编写；而在Claude Code于2025年2月发布研究预览版之前，这一比例仅为个位数[14] - Anthropic典型工程师每天合并的代码量已达到2024年的8倍，但公司承认代码行数并非完美的生产力指标，可能高估了真实提升[14] 开源社区对AI生成代码的治理策略 - 开源编程语言Zig明确禁止提交任何AI辅助生成的代码，包括大模型生成、改写、编辑、构思或调试过的内容，其总裁将AI辅助贡献称为“基本都是垃圾”[16][17] - Linux社区发布了《AI Coding Assistants》指导文件，允许AI辅助开发，但要求所有贡献必须严格遵守内核开发流程、编码风格和补丁提交规范[18] - Linux内核规定，所有AI生成代码必须由人类提交者审查，确保符合许可要求，且AI agent不得添加Signed-off-by标签，法律责任完全由人类承担[19] - Linux要求通过“Assisted-by”标签对AI工具进行归因，格式示例为“Assisted-by: Claude:claude-3-opus coccinelle sparse”，以追踪AI在开发流程中的作用[20] 企业将AI集成至软件交付流程的实践 - Cloudflare在内部CI/CD流程中部署了AI代码审查系统，该系统运行约一个月，覆盖5169个代码仓库，完成131246次审查，涉及48095个merge request[21] - 该系统平均每个merge request被审查2.7次，审查完成时间中位数为3分39秒，平均每次审查成本为1.19美元，P99成本为4.45美元[21] - Cloudflare为AI审查设置了明确决策规则：无问题或轻微建议则批准；存在警告但无生产风险可带评论批准；多个警告形成风险模式则撤销批准；出现严重问题或安全风险则阻止合并[22] - 公司保留人工“break glass”通道，允许人类reviewer强制批准紧急修复，但相关覆盖行为会被记录[23] - Cloudflare将merge request按复杂度分为trivial（10行以内）、lite（100行以内）和full三档，并依此选择不同模型进行审查，系统缓存命中率达到85.7%，节省了估计五位数美元成本[25] - Cloudflare明确表示，AI代码审查系统不能替代人类reviewer，其在架构判断、跨系统影响等方面仍有明显限制，定位是自动化第一轮初筛[24]