Workflow
AI Programming
icon
搜索文档
灵魂拷问:如果AI真能造出10x工程师,那“软件洪水”在哪儿呢?
36氪· 2025-10-08 08:02
AI编程工具的实际效能 - 开发者自我感知的生产力提升(约20%)与实际生产力下降(约19%)之间存在显著差异,个人评估误差约为5% [1] - 经过六周严格对比测试(抛硬币决定是否使用AI),使用AI工具导致编程速度中位数下降21%,与第三方研究结果一致,且数据不具备统计显著性 [2][4] - 即使经过六个月的使用经验,开发者对AI代码建议的接受率仅从29%提升至34%,仅增长5个百分点,表明学习曲线带来的效率提升有限 [24] 行业宣传与市场现实 - 主要AI编程工具(如Cursor、Claude Code、GitHub Copilot)普遍宣传“非凡生产力”、“更快开发”等效益,谷歌声称其大语言模型使开发者速度提升25% [6] - 有14%的开发者声称通过AI实现了10倍产出增长,但全球软件发布数据并未显示出相应的指数级增长 [6][22] - 技术领导者因“错失恐惧症”推动公司向“AI优先”转型,并以此作为裁员和重新评估开发者薪酬的理由 [7] 软件产出数据验证 - 全球新软件发布图表显示增长曲线“平淡无奇、一马平川”,未出现预期的“曲棍球棒式”增长或“铲件”激增 [8][20] - 新域名注册总量并未呈现前所未有的增长,尽管.ai域名在特定年份增长了47%,但这主要反映创业公司向AI领域转型而非整体软件产出的增加 [27] - 客观数据表明,在AI工具被广泛采用后,开发者交付的软件数量并未比以往更多 [22] 对开发者的影响与行业现状 - AI工具的无效性导致部分开发者因采用速度不够快而被解雇,或因职业焦虑而被迫留在不喜欢的岗位 [21] - 行业在代码质量方面出现倒退,测试实践(如持续改进、测试驱动开发)减少,行业标准至少倒退十年 [25] - 针对独立开发者或小团队,论证“软件开发大部分工作不是写代码”并不成立,因为独立开发无需大量会议,应能直接增加代码产出和项目发布 [28]
“10倍速度,0倍理解?”AI代写代码的那些坑
36氪· 2025-09-29 16:18
AI编程助手的效率悖论 - AI编程助手能在几秒钟内生成数百行代码,但写代码只是软件开发生命周期中的一小部分 [1] - 实际软件开发中,理解需求、设计架构、测试验证和团队协作等环节占据主要精力,AI的介入使这些环节既更快也更容易出问题 [1] - 营销宣传称AI编程能使编码速度提升10倍,但现实中开发者交付可用软件时的效率提升仅为10%左右 [3] AI编程带来的新挑战 - AI生成代码采用“先写代码,再去理解”的模式,导致开发者需花费更多时间事后理解AI生成的代码 [2] - AI快速生成有趣简单的代码部分,而将繁琐不讨喜的工作留给人类,如测试、清理重复代码、写文档和部署运维 [5] - 开发者真正用于写代码的时间反而减少,更多时间花在“善后”工作上 [5] 技术负责人的管理困境 - 技术负责人面临“公平分工”与“自己兜底”的两难选择,前者利于团队成长但可能拖慢进度,后者提升短期交付速度但损害长期发展 [7] - 经验和知识过度集中在技术负责人身上会导致团队脆弱、支持难度加大,最终引发负责人倦怠或离职 [9] - 真正的解决方案是找到平衡点,通过合理团队实践让每位工程师在可控框架内工作,减少返工并提升协作 [11] AI作为“超高速初级工程师”的特性 - AI编程助手可被视为“超高速的初级工程师”,其生成代码速度远超人类新人,但不会真正学习成长 [14] - 早期大模型因bug多、易胡编导致整体交付慢,如今模型更智能,“一次写对”几率提升,但距离资深工程师水平仍有差距 [14] - 对待AI有两种用法:遵循最佳实践的可持续开发,或牺牲理解换取速度的“Vibe coding”,后者长期必然失败 [14] 人机协同的最佳实践 - 需建立新工程实践将AI原始速度转化为可持续交付能力,工程师需当好“神速新人”的技术负责人,提供结构、标准和流程 [18] - AI可融入开发生命周期每个阶段,如需求分析、模块化设计、测试驱动开发、编码规范和监控分析 [20][23] - 通过模块化架构控制上下文范围,结合测试驱动开发和团队编码规范,可提升代码可理解性和可维护性 [23] AI编程的适用场景与局限 - “Vibe coding”模式仅适用于小项目或一次性原型开发,这类应用简单到可由AI独立完成 [17] - 复杂软件系统需要人类与AI团队协同合作,需专门指导手册来实现高效交付 [17] - 只要认识到写代码只是软件交付的一部分,就能避免“AI编程陷阱”,真正放大能力打造高效可扩展软件 [21]
“别再碰我代码!”明星AI工具成瘟神,用户怒斥:一周七千块,修不好bug还删我关键文件!
AI前线· 2025-09-20 13:33
公司融资与产品发布 - Replit完成2.5亿美元融资,估值达到30亿美元[2] - 公司于9月10日正式推出新一代AI编程助手Agent 3[2] - Agent 3被描述为迄今最先进、最自主的编程代理,性能据称比Computer Use模型快3倍、成本效益高10倍[2] Agent 3产品特性与愿景 - Agent 3能够在浏览器中自动测试和修复应用,检查按钮、表单、链接和API,并可连续运行超过200分钟[3] - 该代理可与Slack、Telegram、Notion、Dropbox等常用工具集成[3] - CEO将Agent 3定义为软件的“自动驾驶时刻”,宣称其自主性提升了10倍[4] - 公司提出了“自主性等级”体系,将Agent 3定位为四级(基本全自动),并展望第五级(同时运行数千个代理,以超过95%的可靠率解决问题)[5] - Agent 3的三大技术支柱包括端到端测试、采样与模拟(提升2-3倍可靠性)以及自动生成测试[9] - 公司愿景是成为企业市场标准,让数百万甚至数十亿人通过简单操作将想法变为现实[7] 用户反馈与产品问题 - 有用户报告Agent 3在尝试修复bug时,工作一个多小时未找到解决方案,反而引入回归问题并删除了关键文件如storage[8][10] - 回滚功能被用户报告失效,导致应用崩溃,最终需手动恢复至稳定版本[10] - 另一用户遭遇代理删除其与测试用户所有数据的情况,回滚功能同样未起作用[12] - 用户普遍反映Agent 3处理效率低下,例如两行代码的修改耗时三小时[12] 成本与定价问题 - 用户报告使用Agent 3一周左右产生高额费用,其中一周花费至少1200美元[14] - 在编辑已有应用时成本最高,有用户一周内因此花费1000美元,而此前同样工作月费用不超过180-200美元[14][15] - 新定价模式下,复杂任务被捆绑为更昂贵的检查点,导致用户账单迅速攀升,有用户月花费可能上涨20倍[14] - 有用户平时月消费100-250美元,但在Agent 3发布当天一晚上就消耗70美元[14] 公司技术战略与回应 - CEO强调技术突破在于构建了支持AI代理持续运行的“模型栖息地”基础设施,特别是“事务性”机制允许回滚至任意历史检查点[17] - 公司认为基础设施带来的环境反馈和快速试错能力是实现高可靠性的关键[18] - 在自主性设计上,公司同时推进短时间跨度的可靠性和长时间跨度的自主性,后者旨在将人类从环路中移除[18] - 通过多代理并行试错和设置测试护栏来应对长时运行可能出现的“目标漂移”问题[18]
一周狂烧1000美元,修不好bug还顺手删库?这款明星AI工具怎么了
36氪· 2025-09-19 15:45
Agent 3 产品发布与融资 - 公司于9月10日正式推出新一代AI编程助手Agent 3,并宣布完成2.5亿美元融资,估值升至30亿美元 [1] - 公司将Agent 3描述为迄今最先进、最自主的编程代理,性能据称比Computer Use模型快3倍、成本效益高10倍 [1] - Agent 3被定位为软件的"自动驾驶时刻",其自主性提升了10倍,能够连续运行超过200分钟,在构建、测试和修复过程中几乎无需人工监督 [2][3] Agent 3 技术特性与愿景 - Agent 3具备三大技术支柱:端到端测试、采样与模拟、自动生成测试,旨在提升2-3倍的可靠性 [6] - 公司CEO阐述了"自主性等级"体系,将Agent 3定位为四级(基本全自动),未来目标是实现五级自主,即能够同时运行数千个代理,以超过95%的可靠率解决问题 [4] - 公司强调技术突破在于构建了支持AI代理持续运行的"模型栖息地"基础设施,特别是事务性机制,允许用户回滚至任意历史检查点 [17][18] 用户反馈与产品问题 - 用户报告Agent 3在修复bug时效率低下且具有破坏性,例如工作一个多小时无法解决问题,反而引入回归、破坏项目,甚至删除关键文件如storage [7][8] - 多位用户遭遇回滚功能失效问题,需要将环境回退到24-48小时前才能恢复数据,公司强调的事务性回滚机制在实际中形同虚设 [11] - 用户指出Agent 3在处理已有应用时代价高昂,有用户一周内产生至少1200美元费用,而之前同样工作每月费用不超过180-200美元,成本飙升但无实际成果 [13][15][16] 定价模式与市场反应 - 公司自6月起推行"基于投入的定价",复杂任务被捆绑为更昂贵的检查点,导致用户成本显著增加,有用户月度花费可能上涨20倍 [15] - 社区出现尖锐批评,指其定价策略如同"末日收割",并质疑AI代理的实际价值,认为人类开发者更便宜且更聪明 [16] - 成本失控问题在新服务上线后集中爆发,用户账单迅速攀升,例如有用户在Agent 3发布当天一晚上就消耗了70美元 [15][16]
GPT-5编程专用版发布!独立连续编程7小时,简单任务提速10倍,VS Code就能用
量子位· 2025-09-16 08:52
模型升级 - 推出GPT-5-Codex特化版模型 支持独立连续编程7小时[1][5] - 新模型具备真动态思考能力 可在执行任务过程中实时调整算力分配[4] - 针对复杂工程任务训练 包括完整项目构建、功能测试、调试和大规模重构[8] 性能表现 - 在SWE-bench Verified上表现略优于原版GPT-5 代码重构任务成功率提升近20%[9] - 简单任务输出token数比GPT-5减少93.7% 响应速度提升10倍[11] - 复杂任务推理时间增加 输出token量提升102.2%[12] - 代码审查错误率从13.7%降至4.4% 高影响力评论比例从39.4%提升至52.4%[15] 产品生态 - 推出IDE插件版 支持VS Code和Cursor编辑器[2] - CLI支持图像输入 可处理截图和设计稿[18] - 集成网络搜索和MCP工具 用待办列表追踪复杂任务进度[19] - 终端界面升级 工具调用和diff展示更清晰[20] - 支持云端本地无缝切换 可在IDE创建云任务并跟踪进展[23] 基础设施 - 通过容器缓存技术 新任务中位完成时间缩短90%[24] - 自动扫描设置脚本并执行 运行时可通过pip install获取依赖[24] - 前端任务可启动自有浏览器查看构建结果 迭代改进并附加截图至PR[24] 市场时机 - 升级正值Claude Code因模型质量下降出现用户退订潮[25] - 公司借机抢占AI编程市场份额[26]
全球第四大独角兽出现,创业公司要退场吗?
虎嗅APP· 2025-09-07 21:17
行业趋势与市场格局 - AI编程领域正从分散创业公司向巨头整合转变 强者恒强格局显现[3][4] - 2023年全球编程市场规模达100亿美元 2024年增长至150亿美元 中国市场2022年达20亿元同比增长35%[7] - 预计到2030年AI编程工具市场将增长至260亿美元 年平均增长率接近30%[7] 头部企业动态与融资 - Anthropic完成130亿美元F轮融资 估值达1830亿美元成为全球第四大独角兽[3] - Claude大模型年度经常性收入将从2025年的10亿美元跃升至50亿美元 其编码产品创造超5亿美元运营收入[3] - Cursor完成9亿美元C轮融资估值达99亿美元 ARR超5亿美元 被超半数财富500强企业使用[7] - 仅60人团队的Cursor在两年内实现从零到10亿美元年收入 收购Koala工程师团队挑战微软GitHub Copilot[7] 技术演进与产品突破 - AI编程经历两次关键产品市场匹配:2023年GitHub Copilot实现代码补全PMF 2024年Claude 3.5 Sonnet实现端到端应用生成[6] - Windsurf采用"代理式编程"理念 实现多文件编辑和复杂任务自动化处理 被收购前拥有超80万开发者用户和1000家企业客户[9] - Lovable的Agent技术将错误率降低91% Bolt.new实现浏览器标签页运行完整开发环境[14] 商业模式与成本挑战 - AI编程产品严重依赖基础模型 需支付巨额API费用(如Perplexity 2024年向Anthropic和OpenAI支付800万美元占收入近25%)[10] - 行业可变成本率普遍在10%-15%之间 所有代码生成产品利润率均为零或负数[10] - Cursor通过向用户收取额外费用转嫁成本 Windsurf选择卖身及时止损[11] 新兴企业突围策略 - Lovable面向非技术用户实现"平权化编程" 通过语言描述直接生成全栈应用[13][14] - Bolt.new专注C端零基础用户 4周ARR达400万美元 8周突破2000万美元 5个月收入4000万美元注册用户超300万[14] - 在垂直细分场景打磨深度 从大厂未覆盖的缝隙市场切入成为可行策略[4]
氛围编程行不通,CTO们集体炮轰AI编程:不是失业,而是失控
36氪· 2025-08-25 09:13
文章核心观点 - 一线技术负责人普遍认为氛围编程(vibe coding)在生产环境中存在严重风险,可能导致系统崩溃、安全漏洞和技术债务,而非宣传中的生产力革命 [1][2][3][4] - 生成式AI工具虽能快速产出代码,但缺乏对业务逻辑、系统架构和复杂场景的理解,无法替代人类工程师的决策和调试能力 [4][10][13][14] - 生产级软件开发需要结构化方法,包括代码审查、规范文档、测试体系和上下文理解,而非依赖AI的直觉式输出 [13][22][24][25] 技术风险案例 - Let Set Go团队因AI生成数据库查询导致真实流量下系统瘫痪,问题源于底层架构而非语法错误 [3] - Cirrus Bridge的新人使用AI拼凑代码导致权限逻辑错误,已注销用户仍可访问后端工具,修复耗时两天 [3] - AlgoCademy的核心搜索功能因AI编写二分查找存在隐蔽错误,导致生产系统宕机和用户流失 [4] - App Makers LA的认证流程因AI生成代码缺乏逻辑模型,在多角色权限需求下崩溃,最终需重写 [4] - Akveo项目完全依赖AI编码虽加快MVP交付,但代码不可读、难调试和维护,长期成本高昂 [4] 生产环境特性 - 生产环境要求99.99%可用性,需处理GB级数据流和复杂涌现行为,AI生成代码难以满足可靠性要求 [10][13] - 每行AI生成代码均需维护和调试,增加系统负担,最佳实践是减少代码量而非追求生成比例 [14] - 复杂系统存在独特怪癖(如仅特定人员理解的逻辑),模式化AI输出无法适配真实场景 [18][19] 软件工程本质 - 软件工程师的核心工作是决策(架构、包引用、权衡)而非仅编写代码,需理解业务逻辑和系统上下文 [13][20] - 关键技能包括代码审查、版本控制、单元测试和渐进式部署,AI工具需融入现有工程体系 [22][25] - 历史表明技术变革(如DevOps、云计算)未淘汰职业,而是提升抽象层级和工程师价值 [11] AI编码改进方向 - 需为AI提供结构化上下文:统一编码规范、可复现环境、清晰功能边界和任务定义 [24][25][30] - 建议采用"定义-创建-优化"循环:通过文档规划任务,AI生成后人工微调迭代 [31] - 需区分代码风格差异与质量缺陷,避免过度追求输出一致性 [29] - 需开发更智能的代码审查工具,当前按文件字典序审查的方式效率低下 [25][26] 行业专家观点 - GitHub等公司工程师实际工作高度受限(如六个月仅开发一个按钮),AI生成代码空间有限 [10] - Stack Overflow创始人强调"最佳代码是不存在的代码",减少代码量可降低维护负担 [14] - Augment Code团队认为上下文理解是AI编程关键,但无法替代对生产系统的关注 [22]
今年 AI 圈最抓马宫斗还没完,Windsurf 华人新东家要求 996,不干就走人
36氪· 2025-08-05 17:44
公司动态 - Cognition收购Windsurf后要求员工选择996工作制或离职,设定8月10日为最后期限[1] - Cognition将996工作制包装为"忠诚测试",提供加薪、股权和话语权激励,硅谷AI初创公司如Fella & Delilah推广类似制度并提供25%薪资涨幅与100%股权增值[3] - Windsurf原计划以30亿美元被OpenAI收购但谈判破裂,因团队担忧与微软合作协议下的技术整合问题[5] - Google DeepMind以24亿美元挖走Windsurf CEO及40名核心员工,12亿美元分配给投资者,12亿作为员工激励,部分员工股票授予被撤销需等待四年兑现[6][8] - Cognition以2.5亿美元收购Windsurf剩余资产,包括8200万美元年经常性收入,员工数从39人增至约200人[10] 行业趋势 - 大厂通过高价挖走核心团队+技术授权规避反垄断监管,案例包括Character.AI团队加入Google获27亿美元许可款、Inflection CEO跳槽微软、Scale AI与Meta达成143亿美元交易后裁员200人[11][13] - AI初创公司普遍面临核心团队被挖角后业务停滞问题,如Covariant失去三位创始人后陷入停滞[13] - 硅谷AI领域盛行高强度工作文化,风险投资人推崇"007"工作制,认为这是打造百亿美元公司的必要条件[3] 技术发展 - Cognition核心产品Devin被称为"全球首位AI软件工程师",具备自主编写、调试和部署代码能力[10] - Windsurf原技术成果因OpenAI与微软协议可能间接落入微软控制,后以非独家授权形式被Google获取[6]
用户集体大逃亡,Cursor“自杀式政策”致口碑崩塌:“补贴”换来的王座,正被反噬撕碎
36氪· 2025-08-05 16:54
Cursor产品策略调整 - 初始Pro版每月20美元提供无限制代码补全和智能体功能[4] - 经历五次调整:先限制500次优先请求后降速 随后改为超量按量计费 再转为隐形限流系统 最终推出60美元Pro+套餐承诺无限使用但实际仍有限额[4][5][6] - 官网删除200美元Ultra套餐"无限"标注 帮助文档未更新 社区讨论帖子被删除[6] 用户不满与信任流失 - 用户遭遇模型安装旧版本问题 如漏掉60个更新或使用4个月前版本[3] - 付费用户遭遇功能削减:Claude Sonnet思考时间从免费变为消耗额度 Pro+套餐"无限使用"表述改为"3倍用量"[5][6] - 用户反馈模型稳定性下降 出现中途卡顿 上下文丢失和步骤遗漏问题[7] 商业化与成本压力 - Cursor需向OpenAI和Anthropic支付高昂API调用费用 20美元Pro套餐对重度用户存在成本不可持续问题[18] - Anthropic通过API获得14亿美元收入 其中Cursor和GitHub为主要客户 Claude Code实现4亿美元年收入且较几周前翻倍[12] - 固定费率结合高token消耗模式导致创业公司面临算力成本压力 如20分钟Deep Research运行成本约1美元[22][23] 竞争格局与替代方案 - 开发者转向Claude Code:其被评价比Cursor强10%-30% 特别在长时间和大规模任务上表现突出[11][12] - 企业用户仍选择Cursor因Claude Code对国内支持不佳 且企业更关注工具带来的收益而非成本[14] - 开发者采用组合策略:用Cursor进行日常开发和问题定位 用Claude Code处理大规模重构或系统设计难题[14][15] 行业发展趋势 - AI编程工具竞争焦点从功能战转向模型能力战与生态平台战 需在模型能力 开发者体验 成本效益和安全合规四维度构建优势[24][25] - 未来工具向智能体演进 支持多模态交互 模型与云平台提供商将主导市场 企业级市场成为终极战场[26][27] - 封装类工具需通过差异化与垂直化寻找生存空间 如深耕特定行业或构建独特开发者知识管理系统[27]
AI编程界炸出新黑马!吊打Cursor、叫板Claude Code,工程师曝:逆袭全靠AI自己死磕
AI前线· 2025-08-02 13:33
AI编程工具AmpCode的崛起 - AmpCode与Claude Code并列S级,成为AI编程领域的顶级产品,而Cursor仅位列A级[2] - 该产品由Sourcegraph推出,研发时间早于Claude Code发布[4] - 核心设计理念强调"代理性",能深度参与开发流程并具备高度自治能力[4] 产品差异化设计 - 采用"放权"架构,赋予模型完整的对话记录、工具访问和文件系统权限[5] - 与Cursor等产品相比,交互更直接,消除了抽象隔层[22] - 通过VS Code插件等多平台支持降低使用门槛,无需更换开发环境[25] 技术实现突破 - 基于Claude 3.7和Sonnet 3.7模型构建,仅需300行代码即可实现基础代理功能[7] - 模型展现出自主解决问题的能力,如通过echo命令修改未授权文件[7] - 采用透明可控的工具调用机制,模型按预设协议格式发出操作信号[9] 开发者体验变革 - 测试套件90%可自动生成,UI组件状态预览等重复工作实现自动化[66] - 开发效率提升显著,例如20秒完成组件功能同步等机械性工作[67] - 使构建调试工具等辅助程序的门槛大幅降低,促进工程实践创新[70] 行业影响与趋势 - 代码价值结构改变,90%机械性工作价值下降,10%设计决策价值倍增[57] - 初级和资深工程师获益最大,中间层面临技能转型挑战[33][34] - 开源生态面临重构,标准化库的价值被即时生成能力削弱[75][77] 产品定位与商业模式 - 采用高价策略,不限制token用量以释放模型全部潜力[21] - 面向企业提供团队协作功能,如对话记录共享和使用统计[25] - 保持架构灵活性,准备随时整合更强大的模型能力[26][30]