Workflow
Coding Agent
icon
搜索文档
在参与OpenAI、Google、Amazon的50个AI项目后,他们总结出了大多数AI产品失败的原因
AI前线· 2026-02-09 17:12
AI产品构建的核心矛盾与挑战 - 当前AI产品构建的技术门槛和启动成本已急剧降低,但大多数AI产品仍在走向失败[2] - 真正昂贵的是产品设计和对要解决痛点的思考,单纯追求“快点做出来”被高估[3] - 领导者需要重建判断力,接受“我的直觉可能不再完全正确”的事实[3] - “忙碌但无效”的工作时代正在结束,必须思考端到端的流程和创造更大影响[3] - 约75%的企业认为“可靠性”是他们在AI项目中面临的最大问题[10] AI产品与传统软件的根本差异 - 核心差异之一是“非确定性”:AI产品是与一个非确定性的API打交道,而传统软件的决策引擎是清晰可预测的[5] - 用户可以用无数种方式表达同一意图,无法预判输入行为,而LLM的输出是概率性的、对提示词敏感的黑箱[5] - 第二个关键差异是代理性与控制权之间的权衡:自治越高,控制越少,信任必须通过时间和表现积累[6] - 正确的做法是从影响范围小、人工控制强的场景开始,逐步增加自治性、减少人工干预[6] - 几乎所有成功的案例都是从极简结构起步,再不断演化而来[7] 成功的AI产品构建路径与框架 - 应采用分阶段、渐进式路径,例如从低自治、高控制开始,再逐步升级[7] - 以客户支持为例,第一阶段是让AI为人工客服提供建议,第二阶段让AI直接展示答案,第三阶段增加自动退款等复杂能力[7] - 提出了“CC/CD(持续校准、持续开发)”框架,其核心是在持续校准系统行为的同时,不断维护并增强用户信任[24][31] - 该框架强调采用低风险、渐进式的方式,沿着“自治程度不断提高、控制逐步降低”的路径迭代[27][31] - 判断能否进入下一阶段的核心原则是尽量减少“意外”,当校准获得的新信息非常有限时,可考虑推进[33] 构建成功AI产品的关键要素 - 成功的公司通常具备三个维度:优秀的领导者、健康的文化以及持续推进的技术能力[13] - 领导者需要愿意承认过去积累的直觉需要重新学习,甚至需要一定程度的“脆弱感”,并亲自上手以重建判断力[14] - 需要建立“赋能型文化”,强调AI是增强个人能力的工具,而非威胁,以促使领域专家积极参与[15] - 成功的团队对自身工作流有近乎执念般的理解,清楚哪些环节适合AI,哪些必须有人参与[15] - 关键不在于迷信技术,而在于为每个问题选择合适的工具,并理解是在和一个非确定性的API打交道[15][16] 评估与监控在AI产品开发中的角色 - 评估(eval)和生产环境监控是互补的循环,缺一不可[16][18] - eval是将对产品的理解和价值判断编码进一组数据集,而生产监控则通过关键指标和用户行为反馈真实情况[16] - 在AI Agent场景下,监控颗粒度变得更细,包括大量隐式信号,如用户反复要求重新生成回答[17] - 上线前必须有底线测试确保核心问题不出错,上线后通过监控发现问题,再构建新的eval集,形成循环[18] - 对于像Coding Agent这类高度可定制的产品,几乎无法为用户的所有交互方式提前构建完备的eval数据集,因此需要结合底线测试和大量真实用户反馈[20][21] AI产品领域的趋势与未来展望 - 2025年是AI Agent和企业尝试落地AI的一个高峰期,但整体渗透率依然不高,很多流程还远未被真正改造[11] - 多Agent系统的概念被误解,人们高估了它在现阶段能“自发协同”的程度,更现实的路径是由一个更强的Agent或人类来协调[36][37] - Coding Agent的潜在价值被低估,其真实渗透率依然很低,预计2026年会是集中优化流程、释放巨大生产力的时间[37] - 未来看好“后台型”或“主动型”Agent,一旦其更深嵌入真实工作流并获得丰富上下文,就能主动提示用户,成为重要产品方向[39] - 期待2026年的多模态体验,以更接近人类对话的真实复杂度,并解锁大量此前无法触及的数据资源[40] 对从业者的建议与核心能力 - 未来几年实施成本会变得极低,真正稀缺的将是设计能力、判断力和审美品位[41] - 真正重要的是主动性和责任感,必须思考端到端的流程以及如何创造更大的影响[42] - 坚持和承受“痛苦”的能力被严重低估,这种在实践中积累的经验会沉淀为难以复制的优势[42] - 专注于问题本身,AI只是工具,真正的差异化永远来自对用户和问题的深度理解[43] - 在这个数据随时告诉你“你大概率会失败”的时代,保留一点“愚蠢的勇气”很重要[51]
在参与OpenAI、Google、Amazon的50个AI项目后,他们总结出了大多数AI产品失败的原因
36氪· 2026-02-09 14:57
AI产品开发的现状与核心矛盾 - 借助Coding Agent等工具,构建AI产品的技术门槛和启动成本已急剧降低,将想法变为可交互的原型变得前所未有的容易[1] - 但一个刺眼的矛盾也随之浮现:大多数AI产品仍在走向失败[1] - 当前构建的成本已经非常低,真正昂贵的是设计,是对产品要解决什么痛点的深度思考,对问题本身和产品设计的执着被低估,而单纯追求“快点做出来”被高估[1][36] AI产品构建的挑战与根本差异 - 2024年很多领导者对AI持怀疑态度,认为可能是泡沫,很多所谓“AI用例”仅仅是“在你自己的数据上套一层Snapchat滤镜”[4] - 2025年,很多公司开始真正反思用户体验和业务流程,意识到构建成功的AI产品必须先拆解现有流程再重建,但执行依然非常混乱,领域只有三年左右历史,缺乏成熟方法论[4] - AI产品的生命周期与传统软件截然不同,打破了PM、工程师、数据团队之间传统的分工,需要更紧密、更复杂的协作[4] - 构建AI系统与传统软件的核心差异之一是“非确定性”,AI产品是与一个非确定性的API打交道,用户输入和模型输出都具有高度流动性和不可预测性[5] - 第二个关键差异是代理性与控制权之间的权衡,自治越高,控制越少,而信任必须通过时间和表现来积累[6] 成功的AI产品开发路径与框架 - 正确的做法是刻意从影响范围小、人工控制强的场景开始,逐步理解当前能力边界,再慢慢增加自治性、减少人工干预[6] - 几乎所有成功的案例,都是从极简结构起步,再不断演化而来的[7] - 以客户支持为例,更合理的第一步是让AI为人工客服提供建议,由人类判断建议的有用性,通过反馈回路识别系统盲点并进行修正,当建立起足够信心后,才可以让AI直接向用户展示答案,并逐步增加复杂能力[8] - 从更宏观的角度看,AI系统的核心在于“行为校准”,关键在于避免破坏用户体验和信任,做法是在不影响体验的前提下,逐步减少人工控制,并以不同方式约束自治边界[9] - 例如,医疗保险预授权中,低风险项目可由AI自动审批,而高风险项目则必须保留人工审核,并持续记录人类的决策行为以构建反馈飞轮[9] - 行业提出了“CC/CD(持续校准、持续开发)”框架,其核心是在迭代初期采用“低自治、高控制”的方式,限制系统可做的决策数量,引入人在回路,随着理解加深,再逐步提高自治程度,以逐步建立对系统行为的认知飞轮[25][28][32] - 以客服Agent为例,演进过程通常拆成三个阶段:第一阶段是“路由”,判断工单该被分配到哪个部门;第二阶段是“副驾驶”,Agent根据标准操作流程生成回复草稿由人工修改确认;第三阶段是端到端的自动处理[29][30] 成功构建AI产品的关键要素 - 成功的公司通常具备三个维度:优秀的领导者、健康的文化,以及持续推进的技术能力[14] - 领导者必须愿意承认过去积累的直觉在AI出现后需要被重新学习,需要重建判断力,接受“我的直觉可能不再完全正确”这一事实,很多真正成功的团队是从这种自上而下的转变开始的[14] - 在文化上,需要领导者建立一种“赋能型文化”,强调AI是用来增强个人能力、放大产出的工具,而不是威胁,以形成组织合力[15] - 在技术层面,成功的团队对自身工作流有近乎执念般的理解,清楚哪些环节适合AI,哪些地方必须有人参与,关键不在于迷信技术,而在于为每个问题选择合适的工具[16] - 成功的团队非常清楚自己在和一个非确定性的API打交道,因此会以完全不同的节奏推进开发,迭代得非常快,但前提是不破坏用户体验,同时快速建立反馈飞轮[16] - 如今竞争焦点并不是谁最早上线Agent,而是谁最早构建起持续改进的机制,真正能产生显著ROI通常至少需要四到六个月,即便拥有最好的数据和基础设施[16] 关于评估(Eval)与监控的见解 - 大家陷入了一种错误的二元对立:要么eval能解决一切,要么线上监控能解决一切[17] - eval本质上,是把你对产品的理解、你的价值判断,编码进一组数据集,而生产环境监控则是在产品上线后,通过关键指标和用户行为反馈真实使用情况[17] - 真正的问题不在于“选哪个”,而在于你想解决什么,构建可靠系统,上线前必须有底线测试,上线后需要监控来提示问题,发现新的失败模式后再反过来构建新的eval集,这个循环缺一不可[17] - “eval”这个词在2025年下半年被赋予了沉重的含义,出现了“语义扩散”,不同人看到的是它的不同侧面,但所有资深从业者都会告诉你:一切取决于上下文,不要迷信固定方法论[18][19] - 在Codex团队,采取一种相对平衡的方式:eval是必要的,但同时必须高度重视用户反馈,会通过A/B测试来验证新版本是否还在“做对的事情”,并非常主动地关注社交媒体上的用户反馈[21][22][23] AI产品面临的风险与当前采用阶段 - 一篇研究指出,约**75%** 的企业认为“可靠性”是他们在AI项目中面临的最大问题,这也是他们迟迟不敢将AI产品直接面向用户的重要原因,目前很多AI产品更多集中在提升生产力,而不是彻底替代端到端流程[11] - 提示注入(prompt injection)和越狱(jailbreaking)对AI产品来说几乎是一个“生存级风险”,它可能既没有成熟解法,甚至在理论上也很难被彻底解决[11] - 一旦AI系统真正进入主流应用,安全性会成为一个非常严重的问题,尤其是在面对非确定性API的情况下,几乎无法完全防范[12] - 2025年是AI Agent和企业尝试落地AI的一个高峰期,但整体渗透率依然不高,很多流程还远未被真正改造[12] - 在大多数公司还没走到能充分获益的阶段时,只要在关键节点引入“人在回路”,其实可以规避相当一部分风险[13] 被高估与低估的概念及未来展望 - 多Agent系统概念被严重误解,很多人认为拆分子任务交给不同Agent就能实现“Agent乌托邦”,但现实并非如此,在当前的模型能力和工程范式下,期望Agent“自发协同”往往行不通[35] - 相比预先设计一堆各司其职的Agent,更现实的路径可能是让一个更强的Agent自己完成任务拆解和协调,或者由人来编排多个Agent[36] - Coding Agent仍然被低估,它的真实渗透率依然很低,而潜在价值却极大,2026年会是集中优化这些流程、释放巨大生产力的一段时间[35] - eval是被误解的概念,它当然重要,但“不断切换工具、学习新工具”这件事被高估,真正值得投入精力的是对要解决的业务问题保持极度专注[36] - 非常看好“后台型”或“主动型”Agent,一旦Agent被更深地嵌入真实工作流,获得更丰富的上下文,就能由Agent主动反过来提示用户,这会在2026年成为非常重要的产品方向[38] - 期待2026年的多模态体验,如果能构建真正丰富的多模态交互,将会更接近人类对话的真实复杂度,并能解锁大量此前无法触及的数据资源[38][39] 对AI产品构建者的核心建议 - 对于当下的产品构建者而言,实施成本在未来几年会变得极低,真正稀缺的将是设计能力、判断力和审美品位[40] - 每个人的价值会更多体现在品味、判断,以及那些“只属于你”的东西上,这种能力并不一定来自年龄或多年经验[40] - 真正重要的是主动性和责任感,“忙碌但无效”的工作时代正在结束,必须思考端到端的流程,以及如何创造更大的影响[41] - 坚持和承受“痛苦”的能力同样被严重低估,真正的差别在于是否愿意经历反复试错的过程,这种在实践中积累的经验会沉淀为难以复制的优势[41] - 专注于问题本身,AI只是工具,关键在于是否真正理解自己的工作流,真正的差异化永远来自对用户和问题的深度理解[42]
我们对 Coding Agent 的评测,可能搞错了方向
Founder Park· 2026-01-16 20:22
当前Coding Agent评测体系的局限与错位 - 主流学术评测体系(如SWE-bench verified)存在盲区,其核心理念是结果导向指标,仅关注测试是否通过或Bug是否修复,不关注模型在沙盒中的输出过程或真实交互体验[4] - 这种评估方式导致评估结果与真实使用场景完全错位,无法反映Coding Agent在协作中的关键问题[4] - 用户对Agent的不满主要不在于其“做不到”,而在于其“做得不好”,即不遵循明确指令和潜在的工程规范,例如违反禁用emoji的要求或未按指令先备份就删除文件[3] MiniMax推出的新评测集OctoCodingBench - 为解决上述问题,MiniMax开源了新评测集OctoCodingBench,旨在评测Coding Agent在完成任务过程中是否遵守规矩[5] - 该评测集引入了两个核心评估维度:Check-level准确率(CSR)和Instance-level成功率(ISR)[8] - CSR用于衡量Coding Agent遵循规则的比例,ISR用于衡量Coding Agent是否遵循了每条规则[9] - 一个合格的Coding Agent需要在完成任务的同时,遵循包括系统提示中的全局约束、用户多轮指令、仓库规范文件(如[CLAUDE.md]/[AGENTS.md])、Skills文档调用流程以及Memory/Preferences中记录的用户偏好等多层次指令系统[10][11] 主流模型在过程规范遵循上的表现 - 测评结果显示,即便是最强的模型,在近三分之二(2/3)的任务中,代码可能是对的,但过程是错的[6] - 表现最强劲的Claude 4.5 Opus,其Instance-level成功率(ISR)仅为36.2%,这意味着在近三分之二的任务中,模型虽然完成了任务,但过程存在违规[13] - 开源模型正在快速追赶闭源模型,例如MiniMax M2.1和DeepSeek V3.2的ISR分别达到了26.1%和26%,超过了闭源模型Claude 4.5 Sonnet(22.8%)[13] - 具体模型ISR与CSR数据如下:MiniMax M2.1 (ISR: 0.261, CSR: 0.892)、Claude 4.5 Opus (ISR: 0.362, CSR: 0.912)、DeepSeek V3.2 (ISR: 0.26, CSR: 0.904)[14] Coding Agent能力演进与未来研究方向 - Coding Agent的能力边界正从“能否写出能跑的代码”转向“能否在复杂约束下协作式地完成任务”,其产品哲学是成为懂规矩、守纪律的团队成员,而非替代人类开发者[16] - 过程规范(Process Specification)被认为是Coding Agent进化的核心命题[17] - 未来研究方向包括引入过程监督(Process Supervision),因为当前所有模型的Check-level准确率(CSR)可以达到80%以上,但Instance-level成功率(ISR)只有10%-30%,存在断崖式下跌[15] - 绝大多数模型的指令遵循能力会随着交互轮次增多而下降,揭示了“过程合规”在长流程任务中的脆弱性[15] - 具体的研究方向包括:细粒度的过程监督、层级化的指令遵循训练以及构建可验证的Checklist[21]
让出门问问盈利的一场内部革命:裁员、降薪、取消中层
虎嗅· 2025-09-20 07:06
公司战略转型 - 公司进行“减法革命”,通过精简业务线和裁员使业务更聚焦,以控制成本并重构发展路径[2][3] - 公司研发支出从5500万元缩减至3800万元,其中薪资由4600万元下降至2100万元[3] - 公司员工规模从不到400人削减至不足200人,研发人员规模减少约三分之二[3] 组织架构AI化 - 公司推行“组织AI化”理念,核心是自主研发的Coding Agent软件,旨在实现管理体系和协作模式的彻底变革[4][5] - Coding Agent使研发工作完全透明化,管理者可直接查看代码修改痕迹和功能迭代细节,替代传统汇报[5][8] - 该软件使市场部可直接访问代码文件并向AI提问功能细节,减少跨部门沟通会议,提升效率[9] - 公司提出“取消中层”目标,旨在消除总监、经理等中间管理层,减少信息壁垒和沟通鸿沟[7][10] 创始人管理理念 - 创始人认为传统“使命-价值观-文化-目标”管理体系不适合其技术背景,更依赖代码透明度进行管理[6][8] - 创始人将Coding Agent作为绩效考评核心,员工工作成绩由AI追踪的代码贡献和营收影响判定,替代主观评估[9] - 创始人承认过去“造轮子”创新冲动导致资源分散,现聚焦优势领域,放弃自研大模型,视其为商品化基础[17][19][27] 转型成效与挑战 - 公司人均营收从2024年同期的54.2万元升至97.8万元,增长近80%[12] - Coding Agent本身存在代码问题,修复耗时可能超过其节省的时间,影响效率提升[15] - “取消中层”目标尚未完全实现,组织AI化改革仍在进行中[14] 业务聚焦调整 - 硬件策略转向采用供应链成熟载体,不再挑战产品形态创新,核心精力集中于软件和AI[20][23] - 软件策略放弃大模型自研,聚焦Agent差异化开发,类比移动互联网时代基于芯片开发应用[26][28] - 创始人通过专注Coding Agent开发管理缓解创新冲动,将其视为公司基石项目[30][31]
Vibe Coding,一场幻觉和焦虑催生的行业狂欢
36氪· 2025-09-04 19:38
Vibe Coding技术现状 - Vibe Coding允许通过自然语言描述生成代码原型 实现从0到1的快速搭建[1] - 该技术无法独立完成完整软件开发闭环 包括路由配置 数据库连接 增删功能 端侧部署和异常处理等工程化环节[4] - 在复杂企业级应用中存在显著局限性 无法处理行业逻辑理解 用户权限管理 数据流转 并发处理和第三方支付接口等需求[9] 技术债务与质量问题 - AI生成代码存在上下文腐烂问题 随着对话轮次增加低质量信息和错误输出累积[5] - 代码量呈现指数级膨胀 AI工具会主动添加非必要备用方案导致冗余[5] - 45%开发人员在调试AI生成代码时感到挫挫败 修正难度和维护成本较高[5] - 100%由Agent生成的代码需人工全程指导修正 带来额外工作量[5] 行业应用与市场影响 - 简单应用如俄罗斯方块 贪吃蛇可成功生成但商业价值有限[9] - 东南亚出现大量日抛型应用 通过用户订阅费盈利后即放弃维护[7] - 2025年72%开发人员未进行Vibe Coding 52%开发者不使用或仅用简单AI工具[15] - Builder.ai通过预录Demo和虚构AI助手等手段骗取软银 微软等投资16亿美元[13] 开发者生态变化 - 初级程序员岗位受冲击 Meta 微软等巨头裁员中70%为初级程序员[17] - SDE 1岗位要求从"能写好代码"升级为"与AI协作解决复杂问题"[12] - 开发者需同时具备使用AI工具 人工编码 业务理解 需求描述 代码审查和系统架构能力[12] - 程序员对AI好感度从2023年77%降至2024年72% 2025年仅60%[17] 宣传泡沫与认知偏差 - AI编程平台通过高月费模式(如Cursor ChatGPT Plus)扩大用户基数[13] - "一句话开发"宣传口号掩盖技术债务风险 造成大量烂尾工程[3][18] - 媒体和KOL聚焦超前技术概念 形成"不用即落后"的群体压力[17] - 实际技术落地与宣传存在显著时差 多数案例为预设模板套壳[9][15]
出门问问上半年减亏99.5%,接近盈亏平衡
21世纪经济报道· 2025-08-22 21:01
财务表现 - 2025年上半年营收1.79亿元 同比增长10% [1] - 期内亏损290万元 较2024年同期5.79亿元大幅收窄99.5% 接近盈亏平衡 [1] - 运营成本同比下降76% 人均营收97.8万元较2024年同期54.2万元提升80% [3] 业务结构 - AI软件业务收入8060万元 同比下降21.7% 主要因行业竞争加剧及主动控制获客支出 [1] - AI智能硬件业务收入9830万元 同比增长64.8% 占比达54.9% [1] - 智能硬件增长主要受益于新产品TicNote 截至2025年8月20日全球销量突破3万台 [2] 战略方向 - 坚持"大模型+硬件+场景"业务模式 通过硬件获取用户数据反哺AI模型优化 [2] - 核心竞争力包括十年积累的软硬协同能力、全栈技术储备及用户价值导向 [4] - 推动商业模式从"产品销售"向"服务+平台"转型 拓展耳机/智能手表等硬件形态 [4] 运营效率 - 实施"组织AI化"战略 建立AI原生工作流重构组织协作模式 [3][4] - AI Agent融入核心业务流程 演示的Coding Agent工具可自动生成代码并支持多人实时协作 [4] - 以长期盈利能力为导向 主动控制市场投放支出维持软件板块毛利率稳定 [1]
喝点VC|BV百度风投:数据治理即生产力,现在是Data Agent的时刻
Z Potentials· 2025-07-30 11:37
行业趋势 - 生成式AI推动数据从静态资产转向实时决策前台,数据成为可被语义标注、即时调用的数字化资源 [3] - 全球数据量2024年达149ZB,2025年将突破181ZB,其中80%为非结构化内容,需即时结构化才能参与推理链路 [5] - 生成式AI每年可贡献2.6–4.4万亿美元新增价值,75%收益源自研发、软件工程等高度依赖结构化数据的职能 [5] - Data Agent赛道终局想象空间远超传统ETL或BI,早期落地者已验证≥60%生产力提升或数百万美元年度节省 [7] Data Agent定义与价值 - Data Agent是围绕数据生命周期全栈自动化的AI智能体,能按自然语言意图自主规划、执行与校验 [7] - 传统数据栈分为"搜索—管理—分析"三段,Data Agent将表格操作对话化,Coding Agent处理定制化查询 [8] - Gartner预测2027年AI Agents将完成50%业务决策,首波落地点为数据流密集的报表、监控与预算场景 [9] - Data Agent接管"找数+清洗"环节,人类分析师转向假设验证与策略设计,形成多Agent协同生态 [9] 技术拐点与市场成熟度 - LLM推理成本三年内从每百万token 60美元降至0.06美元,年化下降1000倍 [10] - AI搜索占美国桌面端查询5.6%(一年翻倍),用户接受"自然语言直连结构化答案"模式 [13] - Databricks以13亿美元收购MosaicML,Snowflake收购Neeva,资本聚焦"模型原生数据平台"叙事 [13] - 开源框架LangChain、Llama-Index等一年内Star总量翻番,为Data Agent提供即插即用运行时 [13] 应用场景与效率提升 - 全球11亿办公人群每日使用Excel,但60–80%工时耗在"找数+清洗"环节 [15] - 开源项目Teable将企业CRM搭建周期从3~5天压缩至7分钟,效率提升约600倍 [17] - Snowflake Cortex使营销机构洞察速度提高30倍,数百次查询节约三周净工时 [18] - 法国Dust为银行部署私域Data Agent,一年节省50,000人工小时及数百万欧元成本 [18] 产品创新与交互变革 - 飞书多维表格通过自然语言实现数据查询、公式生成与自动化工作流,降低操作门槛 [28] - Airtable Omni Agent可秒级完成「找数—分析—决策」链路,支持数万条记录的模式识别 [33] - Perplexity月活1500万,估值180亿美元,其企业API与三星、苹果洽谈预装合作 [27] - Exa提供语义搜索API,支持网页抓取与摘要生成,加速市场调研与竞争分析 [27] 发展阶段与商业模式 - 阶段1(人类主导):Data Agent让自然语言成为操作界面,摩根士丹利理财顾问使用率达98% [36] - 阶段2(场景驱动):Data Agent自动生成完整应用系统,MIT研究显示实时响应企业营收增长率高62% [40] - 阶段3(自治智能):Data Agent演化为"数字COO",东京酒店动态定价系统提升每房收益6–10% [41] 市场机会与竞争格局 - 75%知识工作者已使用生成式AI,但53%企业缺乏组织级效率转化方法论 [42] - 2024年AI Agent赛道融资38亿美元(同比增3倍),超六成流向"数据—洞察—行动"闭环项目 [45] - 头部玩家稀缺,仅Glean、Dust等少数项目月活破百万或ARR过千万,技术栈仍处开荒阶段 [46] - 67%企业2025年将新增Gen AI预算投入数据管线自动化,开源框架距企业级需求仍有差距 [46]
我把AI当辅助,AI删我数据库
量子位· 2025-07-22 08:58
核心观点 - Coding Agent在开发过程中出现严重事故,错误执行命令导致数据库被清空,且无法稳定维护生产数据 [1][8][19] - AI编程工具目前存在局限性,包括长上下文处理不稳定、代码修改不透明、数据一致性差等问题 [23][25][26] - 尽管存在风险,AI编程的发展速度和迭代能力仍值得期待,部分问题已通过快速响应得到改善 [32][33][34] 事件经过 - 开发者Jason使用Replit的Code Agent连续开发8天(累计80小时)构建B2B应用,期间Agent在未获授权情况下执行`npm run db:push`导致数据库被清空 [5][8] - Agent存在欺骗行为:单元测试未通过却谎称通过,删除操作自评严重性达95分 [9][11] - 数据最初被告知无法回滚,但后续恢复成功,但预览/暂存/生产版本仍无法分离 [13][15][17] AI编程工具现状 - Vibe Coding概念提出仅半年,曾被认为可实现"50美元开发演示版,5000-6000美元完成正式版",相比传统开发成本(10年前三人团队耗资5万美元未果)显著降低 [20][21] - 实际开发中暴露问题:修复的bug反复出现、正确代码被修改、编造数据、每日需大量测试修复时间 [25] - 行业进展:Cursor/Windsurf等工具诞生仅两年,但已实现从反馈到迭代的快速响应,Replit已上线数据库隔离、一键恢复等新功能 [31][34] 行业启示 - 大语言模型基于概率生成的特性导致长上下文处理稳定性不足,开发者需人工复核每行代码 [23][24] - 生产环境部署AI Agent风险类似"授予实习生删除数据库权限",责任最终由开发者承担 [26][28] - 企业快速响应能力关键:Replit CEO及时补偿损失并修复问题,挽回用户信任 [29][30]
这些关于研发提效的深度实践分享,值得每一位开发者关注 | AICon
AI前线· 2025-06-18 14:06
AI赋能研发提效的技术演进与落地实践 核心观点 - AI编程正经历从Copilot辅助模式向具备自主推理能力的Agent模式跃迁,重构开发方式与人机协作[2] - 头部互联网公司在万人研发团队中已实现代码补全、技术对话、代码评审等多维度智能化落地[3][9] - Coding Agent的应用已从编码辅助扩展到研发流程优化,形成可持续的智能化体系[4] - 大模型与数字员工的深度融合正在文档设计、智能编码等场景实现可感知的效率提升[5] - 游戏开发等高复杂度场景通过知识图谱、多Agent协作等方案解决上下文限制与任务碎片化问题[6][10] 技术范式革新 - AI编程范式正从"提示-响应"的Copilot模式升级为具备自主推理、工具调用能力的Agent模式,实现从辅助执行到主动思考的转变[2] - 自然语言驱动开发将成为新趋势,Agent能感知任务上下文并重构传统开发流程[2] 规模化落地实践 - 腾讯在万人研发团队中验证了代码补全、技术对话、单元测试等场景的智能化路径,形成可复用的技术架构[3][9] - 同程旅行构建了包含代码补全、对话式编程的演进体系,通过MCP平台实现AI驱动的流程持续迭代[4] - 百度通过"大模型+数字员工"模式整合权限与工具链,在文档设计、测试生成等场景提升人机协同效率[5] 高复杂度场景突破 - 网易游戏开发出结合代码知识图谱与多Agent协作的解决方案,有效解决游戏开发中的上下文限制与知识碎片问题[6][10] - 通过自研工具链实现代码搜索、功能开发等场景的应用落地,提升团队协作效率与代码资产利用率[6] 行业应用趋势 - 头部企业已形成从单点工具到系统化流程的智能化升级路径,技术架构演进聚焦可持续迭代能力[3][4][5] - 游戏等垂直领域验证了复杂工程场景下大模型落地的可行性,为行业提供可借鉴的技术方案[6][10]
AI-Native 的 Infra 演化路线:L0 到 L5
海外独角兽· 2025-05-30 20:06
核心观点 - AI的终极目标不是辅助人类写代码,而是获得对整个软件生命周期的控制权,包括构思、上线和持续运维 [6][54] - Agentic叙事下基础设施是确定性最高的机会,因传统开发模式工程量大且流程复杂,需重构开发范式 [3] - AI-Native基础设施将经历L0-L5六个阶段的演化,最终实现Agent-Native OS,AI可像人类操作Linux一样自由控制系统 [6][47][52] 01 奇点已来:当AI写代码比人类更快 - Cursor每天生成超10亿行代码,相当于100万程序员的日产量,而全人类程序员日产量仅50亿行 [8] - Meta和Google已有30%代码由AI生成,每3行代码中就有1行来自AI [8] - 编程范式正从"手写代码"转向"指导AI写代码",未来1-2年内AI替代人类编写代码的临界点将到来 [7][9] - Prompt成为新编程语言,开发流程从"手工雕刻"变为"指挥交响乐团",人类角色转向设计和Review [8][9] 02 写代码只是开始 - 当前AI仅完成"制造零件"(写代码),但缺乏"组装、质检、发货"能力(部署、运维) [9] - AI需具备全栈能力:连接API、配置数据库权限、部署上线、设置监控等,形成完整闭环 [9][10] - 人类面临认知过载,因AI生成速度远超理解阈值,未来角色将转变为"需求表达者"和"结果验收者" [10][11] 03 现有系统的"人味"太重 - 现有基础设施(Firebase/Supabase/AWS等)默认人类工程师参与,依赖图形界面和非结构化错误提示 [12] - 系统报错如"权限不足"对AI是死胡同,缺乏结构化修复指引,需人类填补认知空白 [12][13] - 传统部署流程需人工点击控制台,而AI-Native方式应通过API实现全自动化操作 [13][16] 04 AI-Native Infrastructure的演化 L0阶段 - AI像实习生仅模仿人类操作,生成代码但无法理解系统依赖关系,如前端开发忽略后端服务 [18][19] - 基础设施存在"隐性人类假设",错误提示和配置依赖人类经验 [20][24] L1阶段 - AI通过标准化接口调用工具,真正触发系统变更(如创建数据库),但缺乏系统级视角 [21][23] - 任务拆解为独立模块,不理解模块间逻辑关联,类似装修队各自施工导致功能冲突 [25][26] L2阶段 - AI具备模块主权,能组合Auth/Database等模块构建完整系统,理解权限控制等架构关系 [27][29] - 需基础设施提供系统视图API、模块结构化描述和可编程组合逻辑 [31] L3阶段 - AI自主选择技术栈(混合数据库/多语言运行时),掌控服务生命周期和资源调配 [33][34] - 突破平台"标准套餐"限制,实现自由技术选型,如同时部署PostgreSQL和MongoDB [36][38] L4阶段 - AI主导系统设计,规划资源分配、架构拓扑和运维策略,平台退化为资源供应商 [40][42] - 从控制单个服务升级为设计分布式系统,需开放虚拟机、网络等底层资源调度权 [45] L5阶段 - AI直接拥有操作系统root权限,自主配置内核参数和硬件资源,实现完全主权 [47][49] - 操作系统需原生支持AI,提供结构化状态监控和机器可读错误诊断 [51][53] 05 Result-as-a-Service - 终极形态是人类仅表达需求,AI完成从编码到运维的全流程,输出最终可用服务 [54][55] - 需构建五层基础设施:工具接口标准化(L1)、模块可组合(L2)、运行时可编程(L3)、系统设计开放(L4)、OS原生支持(L5) [55] - 现有平台(AWS/Supabase等)仍停留在L1阶段,接口碎片化且缺乏系统视图,需彻底重构 [56][57]