Workflow
AI编码工具
icon
搜索文档
Claude Code 泄露的代码里,处处写着:这家公司人品不行
AI前线· 2026-04-02 17:30
文章核心观点 - Anthropic 的 AI 编程助手 Claude Code 因发布流程失误,导致其核心源代码在互联网上泄露,暴露了约 1900 个 TypeScript 文件,总计约 52 万行代码 [2][3] - 此次泄露不仅揭示了产品的技术架构,更暴露了公司在数据收集、用户隐私、远程控制及知识产权保护方面存在的潜在问题与争议 [5][6][8][12] - 尽管 Anthropic 试图通过技术手段(如反蒸馏)保护其模型和交互数据,但泄露的代码显示这些机制存在可被绕过的漏洞 [21][25][26] 技术架构与泄露内容 - **泄露规模**:泄露的源码包含约 1900 个 TypeScript 文件,总计约 52 万行代码,内容相当完整 [3] - **核心架构**: - 采用类似插件的工具体系,基础工具定义占近 3 万行代码 [4] - 包含一个约 4.6 万行的 Query Engine,作为系统的“大脑”负责模型调用与调度 [4] - 具备多智能体编排能力,可将复杂任务拆分给称为“swarms”的子智能体并行执行 [5] - **集成与通信**:通过一套双向通信机制打通 IDE 与 CLI,使 VS Code、JetBrains 等编辑器插件能与 Claude Code 交互 [5] - **持久化记忆**:包含一套以文件形式在本地记录用户、项目及偏好信息的机制,并在后续会话中调用 [5] 泄露影响与社区反应 - **代码扩散**:源码在 GitHub 上被迅速镜像,其中用户 Sigrid Jin 上传的版本已获得 10.5 万 star 和 9.5 万 fork,与 Anthropic 官方仓库的 star 数(约 9.5 万)相当 [6] - **版权争议**:由于 Anthropic 声称 Claude Code 的代码大部分由 AI 生成,这引发了其是否受美国版权法保护的疑问,可能削弱其知识产权保护能力 [6][7] - **历史泄露**:此次是 Claude Code 源码至少第三次泄露,该代码已在网上公开约 13 个月 [29][30] 用户数据收集与隐私问题 - **数据保留政策**: - 对于 Free/Pro/Max 版用户,若用户接受数据用于训练,则数据保留五年;否则仅保留 30 天 [15] - 商业用户标准保留期限为 30 天,用户可选择不保留任何数据 [15] - **广泛的数据收集途径**: - 通过 API 接收用户提示词、响应结果、文件内容及系统详情 [12] - 通过 KAIROS 守护进程在后台运行并执行操作 [13] - 通过 CHICAGO 功能使智能体能执行鼠标点击、键盘输入、访问剪贴板和截屏 [13] - 通过持久遥测收集用户 ID、会话 ID、应用版本、平台、邮箱地址等信息 [13] - 通过错误报告脚本捕获工作目录、项目名称、路径等系统信息 [16] - 通过团队内存同步服务,可能将包含敏感信息的本地内存文件上传至公司服务器 [16] - **文件副本留存**:研究员指出,Claude 查看的每个文件都会被保存并上传至 Anthropic,公司会留存副本 [15] 远程控制与安全设置 - **企业级控制**:对于企业客户,Anthropic 维护的专用服务器可推送 `policySettings` 对象,以覆盖设置、设置环境变量等,且更改可立即生效 [13][14] - **自动更新控制**:自动更新程序每次启动时都会从服务器拉取配置,使 Anthropic 能根据需要删除或禁用特定版本 [16] - **机密环境限制**:源码分析指出,在机密环境中可通过一系列设置(如使用特定云服务、禁用遥测端点、锁定版本等)来限制 Claude Code 的远程操作,但无法彻底锁死 [9] - **潜在后门**:实验性的 Skill 搜索功能标记仅对员工可用,若被滥用可能构成远程代码执行路径 [16] 内部策略与争议做法 - **隐身参与开源**:代码显示 Anthropic 员工具备“隐身模式”,在参与公共开源项目时,系统会隐藏其 AI 身份及内部信息(如模型代号 Capybara, Tengu),以避免社区争议 [18][19][20] - **反蒸馏机制**: - **假工具注入**:通过 `anti_distillation: ['fake_tools']` 在系统提示中注入伪造工具定义,以污染竞争对手可能用于训练的数据 [21][22] - **文本摘要替换**:通过缓存和摘要化助手文本来隐藏完整的推理链 [23] - **机制缺陷**:这些反制措施可通过中间人攻击删除特定字段、设置环境变量或使用非官方入口等方式绕过,并非牢不可破 [25][26] - **资源浪费问题**:代码注释揭示,因 `autoCompact` 功能连续失败,曾导致全球每天浪费约 25 万次 API 调用,后通过设置失败上限(3次)来修复 [27]
代码产出“暴涨3倍”后,噩梦开始:凌晨2点线上出Bug,却没一个人能解释
猿大侠· 2026-03-23 12:12
AI编码工具应用的现状与问题 - 行业中出现AI编码工具能显著提升代码产出和研发效率的说法,例如“代码产出提升40%”、“研发效率翻倍”[1] - 许多团队在引入AI编码工具后,出现了代码量增加、交付速度变慢、线上问题增多以及工程师更加疲惫的负面现象[1] - 管理层在推行AI编码助手时,往往只关注代码产出速度的提升,而忽略了整个交付流程中的其他关键环节[2] 对“速度提升”的误判与约束理论 - 单纯提升写代码环节的速度是一种误判,因为写代码在软件交付流程中可能并非瓶颈环节[3] - 根据1984年提出的约束理论,每个系统都有且只有一个瓶颈,优化非瓶颈环节不仅不会让系统变快,反而可能导致系统更加“崩溃”[6][7] - 在非瓶颈环节加速,例如让A工位生产飞快而B工位(瓶颈)处理能力不变,会导致工作量暴涨、交付周期变长、优先级混乱和质量暴跌[7] AI提升代码产出后的实际困境 - 开发者提交PR的速度因AI辅助而加快,但负责Review的人数并未相应增加,导致PR开始积压,等待时间可达一天、两天甚至一周[9] - PR积压导致Review过程流于形式,代码质量下降,合并后CI流程耗时(如45分钟)且可能失败重跑[10] - 部署流程中的手动审批、会议延误等因素,导致功能在测试环境闲置多日,上线速度反而变慢[10] - 最终结果是产出了更多代码,但上线了更少的软件,周期时间(衡量向用户交付价值速度的指标)变得更差[10] - AI生成的代码可能缺乏深度理解,当线上出现Bug时,值班人员或提示编写者可能无法有效解释和修复,扩大了故障面并减少了能理解系统的人数[12] 软件交付流程中真正的瓶颈 - 真正的瓶颈需要通过分析价值流来发现,即跟踪一个功能从想法到用户使用的全过程[14] - 整个系统的吞吐量由瓶颈决定,在解决瓶颈之前,优化其他地方毫无意义[15] 需求定义不明确 - 产品开发可能缺乏与真实用户的沟通,需求定义模糊,导致工程师需要做出大量关于行为、边界和异常处理的微决策[16] - 存在团队花费6周开发一个功能,但最终客户并未购买,该功能仅有11人使用(其中9人为内部测试)的案例[16] - 在需求不明确的环境下提升代码速度,只是更快地做错事[18] 代码完成后的流程延迟 - 编写代码可能只占整个流程的20%,另外80%的时间是代码在各种队列中等待的时间[19] - 代码可能一下午就写完,但上线却花了两个月,延迟主要来自PR评审、CI、测试环境、QA、安全评审、产品验收、发布窗口和灰度发布等一系列环节的等待和排队[19] - 真正慢的环节是“等待”,而非开发本身[21] 发布恐惧症 - 许多团队因用例不稳定、可观测性差、对灰度流程缺乏信心或过往糟糕的发布经历而害怕发布[22] - 这种恐惧导致团队将变更攒成更大的发布包,但更大的包意味着更高的风险,从而形成“发布恐惧循环”[22] - 更快的代码产出会加剧这一问题,为原本就不敢上线的团队增加更多不敢上线的理由[23] 缺乏上线后反馈 - 功能上线后缺乏有效的数据分析和用户访谈,无法验证功能是否真正解决问题,导致下一个功能的开发继续基于猜测[24] - 整个产品路线图成为一连串“有根据的推测”,中间没有反馈闭环[25] - 在此环境下加快代码速度,只是让“做→上线→无所谓”的循环转得更快,无法从中学习[25] 组织协作与结构问题 - 瓶颈有时并非技术或代码问题,而是组织协作、政治和决策流程的问题[26] - 具体问题包括:需要等待会议才能做出决策;团队间缺乏沟通(如三个团队一个月未讨论接口契约);架构师作为唯一审批人导致流程积压至少两周;季度规划耗时过长(6周),紧急需求因“不在计划内”而需额外等待(5周)[27] - AI编码工具无法解决这些组织层面的瓶颈问题[26] 提升交付效率的有效方法 - 有效的方法通常“不酷、不AI、不好卖”,但确实能解决问题[28] 分析与优化价值流 - 需要从想法到上线,一步步记录每个步骤的耗时和步骤间的等待时间,这些等待间隙是周期时间的杀手[29] 关注正确的指标 - 应关注周期时间(从提交到用户用上的时长),而非代码行数或合并PR数等错误指标[30] 减少等待状态 - 针对PR等待评审(如两天),可采取结对编程、提交更小的PR、固定评审时间等方法[31] - 针对发布需要手动审批,应推动自动化或简化为Slack按钮操作,减少对会议的依赖[31] - 针对决策依赖开会,应尝试将大决策拆分为小决策,使许多决策无需开会即可做出[31] 控制并行任务数量 - 限制在制品数量,完成3件事远比10件事都只做一半要强,并行任务会导致切换成本,消耗工程师精力[32] 倾听一线工程师意见 - 一线工程师通常清楚瓶颈所在,他们的反馈(如在站会上吐槽、在Slack发梗图)值得被倾听[33] 核心结论与竞争优势 - 真正的竞争优势不在于写代码最快的团队,这类团队反而容易被淹没在AI生成的PR队列中[35] - 能够想清楚要构建什么、能够构建出来并快速交付到用户手中的团队,才是真正成功的团队[35] - 管理层应关注并优化整个交付流程中的等待时间(例如将功能平均9天的等待时间减半),而非仅仅宣扬代码产出的提升[34] - 写代码的速度本身通常不是问题,认为它是问题的“认知与现实的差距”,才是真正的问题所在[35]
速递|OpenAI正在开发GitHub替代品,建构代码仓库剑指微软
Z Potentials· 2026-03-04 10:07
OpenAI产品战略与潜在竞争 - OpenAI正在开发一款替代GitHub的代码仓库产品,允许软件工程师存储、共享和协作开发计算机代码[2] - 该项目尚处于起步阶段,预计数月内难以完成,最终可能不会公开发布,仅作为内部开发工具[3][5] - 若OpenAI决定向客户出售该代码库的访问权限,将与最大股东之一微软形成正面竞争[3] - OpenAI计划将其Codex编码助手与代码仓库产品结合,以自动化处理构建功能和调试代码等任务[5] GitHub现状与挑战 - GitHub是微软旗下广受欢迎的代码托管平台,拥有数千万付费用户[8] - 近几个月GitHub服务中断次数增加,中断时间从几分钟到数小时不等,导致工程师无法修改代码或协作[2] - 服务中断原因包括人为错误和Azure平台问题,例如一次持续四小时的中断被归因于Azure底层故障[13] - GitHub正在将其技术从自有数据中心迁移至微软Azure云数据中心,计划在两年内完成全部迁移,部分工程团队已专注于此项工作[11][12] AI编码工具市场格局 - AI编码工具正在改变企业软件开发方式,Meta Platforms、微软和亚马逊等公司已有相当比例的代码由AI生成[6] - GitHub Copilot是首批进入市场的AI编程工具之一,面世已有四年,在开发者中取得早期领先,但其领先地位正因OpenAI和Anthropic的竞争而削弱[6] - 竞争对手发布了更先进的编程助手,能够从零开始构建完整应用程序或在无需大量人工监督的情况下调试现有应用[6] - 为大型技术公司开发内部代码库并非罕见,例如谷歌和Meta已分别开发了Piper和Sapling供内部使用,但未对外发布[7] OpenAI产品路线图 - OpenAI已发布多项功能,包括支持多用户协同的项目协作工具、结合传统大语言模型与推理AI的新模型、可创建编辑电子表格和演示文稿的ChatGPT“智能体”、集成网络浏览器、购物推荐功能、定制模型、视频生成AI、ChatGPT健康应用、ChatGPT内外部应用集成、面向科学家的Prism AI工作空间以及低成本订阅服务ChatGPT Go[4] - 正在测试ChatGPT中的广告功能[4] - 尚未发布的产品包括:能复制高级软件工程师并处理耗时数小时或数天任务的AI编码助手A-SWE、用于机器人(可能包括人形机器人)的软硬件、通过收购Jony Ive和Sam Altman的设备初创公司开发的AI个人设备、ChatGPT内的社交媒体信息流、音乐生成AI、面向AWS客户的AI云服务、代码仓库产品以及帮助企业构建、部署和管理AI智能体的Frontier系统[4]
24个月,从写第一行代码到破产:一位架构师在47个“死亡”项目里,看到的共同陷阱
36氪· 2025-10-15 18:32
初创公司技术债问题普遍性 - 许多初创公司失败并非由于市场竞争或资金耗尽,而是产品无法扩展,被自身代码和混乱架构困住,最终陷入慢性死亡 [1] - 一位架构顾问在3年内审阅了47家因产品无法扩展而求助的初创公司代码库,发现它们几乎都沿着同一条时间线走向停滞 [1][2] - 这些公司找到顾问时往往不是因为烧光了钱,而是因为代码库和技术栈出现扩展危机,产品彻底无法规模化却不知原因 [2] 技术债积累的典型时间线 - 第1至6个月:一切顺利,节奏快、疯狂发版、客户开心 [3] - 第7至12个月:开始变慢,出现诡异bug,"以后再修"成为团队口号 [4] - 第13至18个月:新功能合入几乎都会牵动三处旧功能,每次部署压力大 [5] - 第19至24个月:多招3名工程师仅用于维护现有混乱代码,无人开发新功能 [6] - 24个月后,选择被压缩为从零重写或看着系统慢动作凋亡 [7] 技术债的具体表现与成本 - 数据库层面约89%的公司完全没有数据库索引,每次请求在100,000条记录里扫描导致应用慢 [8] - 约76%的公司在云上购买八倍机器,平均利用率仅13%,每月白烧3,000至15,000美元 [8] - 近七成系统存在足以让安全工程师心梗的鉴权漏洞 [8] - 91%的团队没有任何自动化测试,每次上线都像玩轮盘赌 [8] - 按一名工程师年薪12万美元计,Stripe研究表明开发人员花费42%时间处理糟糕代码,一个4人团队3年内浪费超60万美元,加上20-40万美元重建费用及6-12个月收入损失,每家公司总损失达200-300万美元 [8] 避免技术债的关键措施 - 最划算的投资是花两周做架构,这两周能省去18个月的人间炼狱 [10] - 从一开始就保持规模化思维,先问"到1万用户会爆什么",而不是"100个用户能不能跑" [10] - 关键路径如数据库查询、文件上传、后台作业第一天就该具备承接100倍负载的空间 [10] - 自动化测试要从Day 1上线,确保能一键确认没有破坏现有功能 [10] - 技术栈选"无聊的"如React/Node/Postgres更好招人、有社区支持、更稳定 [10] - 外部架构评审要提前到第一周,而非第12个月才请 [10] AI编码工具的影响 - AI爆发后,任何能使用类似Claude Code的人都在快速推出产品,但看似光鲜的产品内部常是未测试代码、无人负责、无文档,基本不存在架构设计 [12] - AI生成的代码看似可用,却可能把临时脚手架误当地基,让技术债积累更快、质量更难判断,代价往往到第18个月才集中显形 [16] - AI既能把想法迅速变成代码,也可能把慢性死亡大大提前 [16] 行业现状与根本原因 - 许多创始人直到第18至24个月才意识到技术债问题,此时他们刚凭借增长曲线融完A轮,却没意识到增长即将散架 [9] - 大多数技术联合创始人和首批工程师很会写代码,但从未设计过可扩展的架构 [10] - 工程最有价值的东西常被忽视,研究与实战都强调不要逃避测试,但不少初创公司并不这么想 [12] - 把工程一开始就做对并不一定更贵,3个强工程师可能比20个便宜外包干得更快更稳,而便宜低效的外包会在几年堆出技术债垃圾山 [15][16]
OpenAI发布新模型硬刚Anthropic,Claude Code刚火,就被GPT-5-Codex拍在沙滩上?
36氪· 2025-09-16 18:09
产品发布与核心功能 - OpenAI于9月15日正式推出专为AI辅助编程工具设计的微调模型GPT-5-Codex [1] - 新模型具备动态"思考"时间特性 处理编码任务耗时范围从几秒到七小时不等 在代理编码基准测试中表现优于前代模型 [1][14] - 增强代码审查功能 通过匹配PR声明意图与实际差异、推理完整代码库及依赖项、执行代码测试验证行为 在产品发布前发现潜在关键错误 [3] 技术能力与性能表现 - 在SWE-bench Verified基准测试中表现优于GPT-5 该测试涵盖500个代码重构任务(从477个扩充而来) [8] - 对低负载任务(后10%用户轮次) token使用量比GPT-5减少93.7% 对高复杂度任务(前10%用户轮次) 推理编辑测试迭代时间为GPT-5两倍 [10] - 支持连续独立工作超过7小时 完成大型重构并迭代修复测试错误 兼具交互式配对开发与长期独立执行能力 [6][14] 产品集成与用户体验 - 已成为Codex云任务和代码审查默认设置 支持通过CLI和IDE扩展应用于本地开发环境 [4] - 整合为基于ChatGPT账号的统一产品体验 支持本地环境与云端任务无缝迁移并保持完整上下文衔接 [6] - 运行平台覆盖终端、IDE、网页、GitHub及ChatGPT iOS应用 并纳入ChatGPT Plus/Pro/Business/Edu/Enterprise套餐 [7] 市场反馈与行业影响 - 用户实测显示可自主运行长达35分钟 能一次性解决此前无法处理的Electron渲染和JSON生成问题 [15][18] - 被部分开发者认为将改写行业规则 预计可使AI生成代码比例达75% 显著降低企业成本(服务费20-200美元/月 vs 初级开发人员成本5000-10000美元/月) [18] - 推动编程重心向架构设计转移 传统初级工程师雇佣模式逐渐失去意义 [19] 行业竞争与资本动态 - AI编码工具市场持续拥挤 主要竞品包括Claude Code、Anysphere的Cursor及微软GitHub Copilot [20] - Anysphere于6月完成9亿美元融资(估值99亿美元) 年化收入约每两月翻倍 当前ARR超5亿美元(较4月中旬3亿美元增长60%) [21] - Anthropic完成130亿美元融资 估值达1830亿美元 经常性收入在1-8月间增长五倍 [21] - Replit完成2.5亿美元融资(估值30亿美元) 年化收入从280万美元增长至1.5亿美元(增幅超50倍) 用户社区超4000万 [22]
比996还狠,让面试者8小时复刻出自家Devin,创始人直言:受不了高强度就别来
36氪· 2025-08-28 16:04
公司文化与招聘策略 - 面试流程要求候选人在6-8小时内从零构建端到端AI代理产品 需完成数据库连接 依赖修复和测试验证[2] - 团队文化强调高强度工作模式 每周工作6天且工时超过80小时 明确不接受工作生活平衡理念[2] - 核心团队具有显著创业者背景 初期35名成员中有21人曾创办公司 招聘标准侧重高层次决策能力 技术理解深度和产品直觉[3][46][51] - 工程团队保持精干规模 收购Windsurf前核心工程团队仅19人 收购后扩展至30-35人范围[45] 产品与技术定位 - 核心产品Devin定位为AI软件工程师 采用异步任务处理模式 通过Slack等平台接收指令并独立完成项目级任务[18][21][22] - 当前主要应用场景包括修复bug 执行简单功能请求 以及处理重复性任务如代码迁移 现代化改造和依赖管理[24] - 在企业级迁移场景中实测实现8-15倍效率提升 通过自动化处理周边琐碎环节大幅减少人工参与[29] - 产品采用混合体验设计 同步操作保留人类决策环节 异步处理交由AI代理执行 重点优化高影响力决策点互动[27] 业务指标与市场表现 - Devin已部署于全球数千家企业 客户范围从高盛 花旗等大型银行至2-3人规模初创公司[25] - 核心衡量指标为合并pull request占比 在成功部署团队中Devin完成30%-40%的合并请求[26] - 内部设立"初级开发benchmark"评估系统 涵盖真实工程任务如Grafana仪表盘修复和依赖调整 最新模型Claude 4.1和GPT-5在该基准表现超越前期所有模型[35][36] 行业认知与发展观点 - 认为AI编码工具发展存在十年产品进步空间 即使模型能力冻结仍可通过产品创新持续提升价值[6][55] - 提出领域成熟度理论 指出行业早期依赖直觉推理 成熟后转向数学化解决方案 类比扑克 国际象棋和游戏领域的演变过程[15][16] - 预测AI产业链各层均存在发展机会 价值将沉淀于具有显著差异化的层级 硬件 模型训练和应用层需不同专业能力[37][39] - 强调按使用量计费将成为AI经济主流模式 区别于传统SaaS按席位收费 反映GPU算力消耗的本质特征[40][41] 收购与整合策略 - 快速收购Windsurf仅用时3天完成 从周五发现机会到周一签署协议 包含不间断周末工作流程[58][59][60] - 收购动机包括获取企业工程 基础设施和市场拓展等互补职能团队 以及同步/异步产品体验的自然结合[64][65] - 收购后迅速发布Wave 11版本 实现IDE内直接访问DeepWiki 代码表示搜索和代理调用等功能集成[65] - 保持双产品哲学独立运营 同时加强Devin与Windsurf之间的体验整合 为客户提供灵活选择[67] 技术演进与未来展望 - 预测未来2-4年将出现临界点 代码不再作为主要交互界面 软件工程师角色转向架构决策和计算机模型指导[52] - 提出杰文斯悖论在软件领域具象化 认为AI工具将推动软件工程师数量增长而非减少 因存在无限软件需求[53] - 指出AI技术扩散独特性 无需硬件分发和网络效应即可实现单人模式价值交付 导致产品创新滞后于技术能力[55] - 认为AGI已以特定形式存在 但否定近期会出现断点式技术跃迁 强调现实世界问题解决需要持续迭代[56][57]
重磅!微软宣布开源Copilot!用 5000 万用户直接碾压 Cursor和Windsurf?
AI前线· 2025-05-20 09:24
微软开源GitHub Copilot - 微软在Build 2025开发者大会上宣布开源GitHub Copilot Extension for VSCode项目,采用MIT许可证,全球开发者可免费访问完整源代码并参与改进[1] - 开源计划分阶段实施:先开源GitHub Copilot Chat扩展代码库,随后将其整合至VSCode核心代码,预计6月初发布新版VSCode[4] - 开源核心理由包括:大模型能力提升使提示策略壁垒降低、AI交互体验设计趋同、VSCode开源AI生态成熟以及提升系统透明度[5] - 这一决策标志着AI开发工具从"黑盒"向"共建"时代转变,是技术成熟、生态完善等多重因素推动的结果[6] Copilot Agent功能升级 - 微软发布全新AI编码代理,可自动完成修复bug、添加功能、优化文档等任务,深度集成至GitHub Copilot[8] - 代理能自动启动虚拟机、克隆代码库并分析,实时保存改动并记录推理过程,任务完成后主动提醒开发者审查[8] - 通过模型上下文协议(MCP),代理可访问GitHub外部数据,所有GitHub数据可从官方MCP服务器提取[9] - 与Cursor和Windsurf等"氛围编码"工具不同,GitHub编码代理更侧重维护和优化现有代码库[11] 市场影响与竞争格局 - GitHub Copilot目前拥有1500万用户,是去年同期的四倍,新增代理模式功能以应对Cursor和Windsurf竞争[12] - VS Code已拥有5000万用户,开源Copilot有助于扩大分发范围并触达更多VS Code用户[13] - 谷歌和OpenAI已分别推出Jules和Codex编码代理,行业竞争加剧[10] - GitHub年收入超过20亿美元,显示AI编码工具市场持续增长[12]