Workflow
Coding Agent
icon
搜索文档
AI Coding 生死局:Spec 正在蚕食人类编码,Agent 造轮子拖垮效率,Token成本失控后上下文工程成胜负手
36氪· 2025-12-30 17:21
AI Coding生态演进:从补全到Agent主导 - AI Coding的演进分为两个时代:第一波由Copilot与Cursor开创,以人为主导,AI角色是预测“下一个字符”或“下一个编辑位置”,端到端时延被严格压在几百毫秒量级,模型规模和上下文长度受天然约束 [2] - 第二波在过去6–12个月迎来范式颠覆:Agent崛起,直接接管从需求分析到代码生成、工具调用到结果验证的任务 [2] - 随着模型能力与工具链完善,Agent会覆盖从需求到交付的更多环节,逐渐成为主流程;补全范式可能退居幕后,成为支撑Agent精细执行的底层能力之一 [3] 工具形态演化:IDE、CLI与Cloud并行 - 头部编程工具演化出三种形态并行:IDE、CLI、Cloud,用户需要的是在不同场景下都能交付任务的完整链路 [4] - CLI和Cloud Agent从一开始就是Agent主导形态,对UI要求不高,在Terminal或简化Web界面工作,用GitHub PR协作和交付 [4] - IDE依然被判断为最多人使用的入口,最符合程序员长期形成的工作习惯,但其形态本身很可能在三年内发生根本变化,不再以Editor为中心展开 [4][5] - IDE正在从“给人用的工具箱”变成“给AI和人一起共用的工具箱”,大量以人为中心设计的能力被拆解为更小、更明确、更AI友好化的Tool,供AI Agent按需调用 [5] Spec驱动开发的兴起与挑战 - Spec驱动开发在过去几个月迅速流行,仓库中堆起面向Agent的“Markdown脚手架”,被视为AI Coding的前沿解法 [1] - 行业对“Spec”的定义存在分歧:有人认为是更好的Prompt、更详细的产品需求文档、架构设计文档,或是“在写代码的时候,多用几个Markdown文件” [8] - 一线工具团队认为Spec与上下文工程(Context Engineering)不是一回事:Spec是上下文中最关键、最稳定的一类内容,承担“指导性Context”的角色,相当于给Agent一份可执行的契约;而上下文工程关注模型在当下是否拿到了足够的信息 [9] - Spec是一切用于指导代码生成的契约总和,可包括产品文档、设计稿、接口定义、边界条件、验收标准、执行计划等,但因其覆盖范围广、形态多、生命周期长而难以标准化 [9][10] - Spec标准是否有效取决于应用场景,因为它本质上是用一种文档/结构去交换正确性、效率、维护成本三样东西,不同场景对这三者的权重不同 [12] Spec与软件工程复杂性的对接 - Spec试图接住软件工程几十年积累下来的复杂性,其标准本质上是软件工程理论在AI编程工具中的具象化 [10] - 争议在于Spec驱动开发是否会导致“瀑布流程回归”,即在编码前完成大量文档工作,试图将开发人员从过程中剔除 [13] - 从工程视角看,Spec Coding真正想结构化的并非开发者的全部思考过程,而是那些最容易在长程任务里出错、最值得被验证和沉淀的部分 [13] - Spec更合理的形态是“活的契约”,是Plan-Execute闭环中的关键中间态,在推理-执行-反馈过程中不断校准Spec和代码制品的一致性 [14] - 从软件抽象发展历史看,Spec被视为在自然语言层级上尝试迈出的下一次抽象升级,但自然语言的模糊性决定了这是一条充满挑战、尚无成熟范式的探索路径 [15] Agent的“自己造轮子”问题与抽象复用 - Coding Agent在实践中存在一个被大量开发者吐槽的问题:极其偏好“自己从零开始实现功能”,而不是复用成熟库 [16] - 对模型而言,“自己写一个能跑的版本”往往是风险最低的路径,当它对某个库的版本、用法或边界不确定时,回退到“自己实现”几乎是必然选择 [17] - 解决此问题的关键不在于对Agent进行人工纠偏,而在于补齐其可依赖的信息源,例如通过MCP工具补齐版本、用法与示例,再用“渐进式披露”把正确用法注入任务上下文 [17] Token成本失控与上下文管理成为核心 - Token成本在2025年突然复杂了一个数量级,根本原因在于范式迁移:大模型应用从“问答”跃迁到“Agent做事”,Token成本成为贯穿推理—执行—反馈链路的全生命周期成本 [18][19] - 关键变化是工具调用的隐形成本开始吃掉大头,为了完成一个任务往往需要多轮对话,每轮对话背后又会经历几次到几百次不等的工具调用 [20] - Spec Coding和多Agent协作让成本结构继续膨胀:Spec/Plan/ToDo/变更说明/验收清单等中间产物被反复生成、引用与迭代,形成新的上下文常驻内容;多Agent又把Token变成通信效率问题 [21] - Token工程的真正战场是上下文管理,目标是最大化KV cache命中率,避免在长程Agent任务中被重复、无意义的上下文刷新拖垮吞吐和稳定性 [22] - 上下文工程的技术演进从早期的Prompt Engineering,逐步演进到更系统化的Context Engineering,实践表明以RAG为代表的“外挂式知识补充”在工程上更具性价比 [23] 上下文工程的技术演进路径 - 随着Coding Agent出现,交互从单轮对话转向多轮、长期的Agent Loop,相关信息由Agent在执行过程中按需检索与召回,这催生了embedding search与grep等能力的逐步登场 [24] - Cline和Claude Code在今年就从传统的RAG转向grep [24] - embedding search并未过时,它更像是数据库中的index,在特定条件下能提升召回效率,而grep在确定性和精确匹配上具备优势,两者服务于不同的检索阶段和需求类型 [24] - 随着任务复杂度增加,Agentic Search逐渐演化出来,并与Sub Agent机制协同出现,例如专门的Search Agent负责多轮检索、筛选与验证 [25] - 行业逐渐意识到真正稀缺的不是上下文长度,而是有效Context的组织能力,需通过缓存、裁剪、摘要、检索等机制把Token的边际成本控制在工程可接受的范围内 [25][26] AI编程的系统工程视角 - AI编程被视为一个至少由四层构成的系统工程:模型层负责“思考”,Tool层负责“行动”,IDE层承载人机交互,上下文层负责“记忆与连续性” [27] - 模型层决定上限;Tool层决定它能不能真的做事;IDE层决定人是否能高效表达意图、及时纠偏;上下文层把这一切粘合在一起,承载历史决策、工程约束与连续性,是长期可靠性的基础 [27] - 未来AI编程的真正分水岭,或许并不仅仅在于“谁的模型更强”,而还在于谁能持续、准确地把工程世界中那些原本隐性的约束、记忆和共识,转化为模型可理解、可执行、并可被反复验证的上下文结构 [27]
Codex负责人打脸Cursor CEO“规范驱动开发论”,18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
36氪· 2025-12-17 10:45
Codex的产品表现与增长 - 自2024年8月GPT-5发布以来,Codex用户增长20倍,每周处理数万亿tokens,成为OpenAI最受欢迎的编程智能体[1][13] - 在Codex的帮助下,Sora团队仅用28天从零到一完成Android应用开发并上线,该应用在App Store排名第一,其中从零到员工测试仅用18天,10天后正式发布[2][4][42] - 过去6个月里,Codex的使用量增长了20倍[7] - 公司内部使用Codex显著加速了工程进程,例如Atlas浏览器项目中,过去需要2-3名工程师花费2-3周完成的功能,现在仅需一名工程师一周时间[43][44] Codex的技术架构与突破 - Codex的成功被归因于一个由模型、API和框架三层构成的完整智能体系统,而非单一模型[1][19][21] - 团队设计了名为“压缩”的机制,使模型能够连续工作24到60多个小时以完成单个长时任务,突破了传统大模型的上下文限制[1][9][18] - Codex采用明确主张,让智能体在shell沙盒环境中工作,这使其能够快速学习并确保系统可靠,区别于市场上依赖语义搜索或自定义工具的其他编码产品[19][22] - 最新发布的GPT-5.1.1 Codex Max模型,在处理相同任务时比前代快约30%,且推理能力显著增强,尤其擅长解决复杂棘手的bug[17] OpenAI的组织文化与战略 - 公司的运作方式被描述为“先射击,再瞄准”,即快速发布产品,再根据真实用户反馈进行迭代优化,这种高速迭代已成为日常[3][8] - 组织架构设计为高度自下而上运作,汇聚了世界顶尖人才,个人动力与自主性极强,这是其高速发展的关键结构性原因[3][6][9] - 公司内部广泛采用“dogfooding”(自用产品)策略,通过在真实环境中持续使用自己的产品(如Codex)来推进产品发展[16] - 公司文化鼓励保持谦逊并通过不断尝试来学习,因为无法确切预知哪些功能最终会奏效[8] Codex的产品定位与愿景 - Codex被定位为开源编码智能体,是VS Code的IDE扩展,旨在参与软件开发生命周期中最繁重的部分,即编写将被部署到生产环境的代码[10] - 当前Codex被比喻为一个“聪明但不会主动的实习生”,大多数用户以结对编程的方式使用它,未来目标是让其成为能够参与软件开发全流程的“主动队友”[2][10][11] - 更广泛的愿景是构建一个“超级助手”,它能够默认提供帮助,深度融入用户的工作流程(如通过聊天或浏览器),而不仅仅是响应指令[12][24][25] - 公司认为,编写代码是人工智能完成任务的通用且最有效方式,未来几乎所有强大的智能体最终都会通过编写代码来工作[7][27] AI对软件工程与产品开发的影响 - AI(如Codex)正在改变工程师的工作内容,从编写代码转向更多地进行设计、系统理解、与AI协作以及代码审查[31] - 当前工程生产力的最大瓶颈并非AI本身,而是人类的输入速度、提示写作速度以及对AI生成工作的审查速度[3][7][60] - 随着构建产品变得更容易,深刻理解特定客户问题变得比单纯擅长产品开发更为重要,这有利于垂直领域的AI初创公司[10][48] - 产品开发方式正在向更高抽象层级演进,例如“规范驱动开发”或更普遍的“聊天驱动开发”,人工智能将能更自然地融入日常沟通流[33][34] Codex的非工程应用与公司内部影响 - 公司内部,设计团队现在可以编写并发布自己的代码,他们维护着由AI辅助构建的功能齐全原型,显著加速了设计流程[7][41] - Codex被广泛用于“一次性代码”任务,例如数据团队构建交互式数据查看器,或设计师创建临时动画编辑器,这体现了“无处不在的代码”理念[41] - Codex加速了从研究、模型训练到设计与营销等公司全链条的运作速度,产品营销人员甚至可以直接在Slack里更新文案[44] - 在模型训练等前沿领域,Codex已开始编写用于管理训练运行和基础设施的代码,并具备监控和提出修复建议的能力,呈现出“自我训练”的雏形[58][59] 行业未来展望与AGI视角 - 公司对AGI到来的一个预判是,第一批出现生产力陡增曲线的用户将在明年出现,其后的变化会加速扩散,当增长曲线异常陡峭时,可能意味着接近AGI[3][61] - 限制AGI发展的因素可能不是模型能力,而是人类自身的瓶颈,如打字速度和审查速度[3][60] - 未来的竞争优势不在于模型彼此比拼速度,而在于构建一个能够编写代码、能力可积累、可组合、可随团队使用而成长的智能体体系[28] - 学习编程依然重要,但重点将转向理解软件系统结构、复杂架构推理以及团队协作能力,使用最新工具的熟练度将成为重要优势[57]
智能体崛起,AI+软件研发到新拐点了?
AI前线· 2025-11-18 13:34
LLM原生开发时代的现状评估 - 行业对大模型在软件开发中的作用存在分歧,部分观点认为其仅是高级自动补全而非范式变革[5] - 大模型在实际开发中呈现"一半是火焰,一半是海水"的两面性:在独立、结构清晰的小任务或0到1创新场景表现突出,但在复杂庞大的现实任务中挑战巨大[5] - 对非研发群体而言已实现范式变革,使其从"不会"到"能"完成软件开发;对专业程序员群体则处于变革拐点阶段,尚未完全实现范式变革[5][6] - 越来越多公司开始披露AI生成代码比例,该比例正在快速上升,部分团队甚至超过50%[6] AI在具体开发环节的应用成效 - 在UI设计稿转代码方面,通过多模态模型结合设计稿解析,代码生成可用度达到80%至90%[13][14] - 在多端代码转换任务中,AI生成代码质量可达70%以上,整体提效约达原来的1.5倍[14] - 在代码审查环节,通过AI结合规范进行自动检测,测试阶段bug数量下降幅度达30%-40%[15] - 在测试用例生成方面,平安集团内部用例数据生成覆盖率已达60%左右,脚本生成时间从数小时缩短至几分钟[18][19] - AI特别擅长替代重复性、机械性任务,如中英文前端代码互转等传统自动化难以覆盖的场景[15] 智能体与AI助手的能力演进 - Coding Agent代表通用智能体的发展路径,能独立完成软件研发任务,潜力远超特定工具层面的自动化[3][31] - 智能体与助手的核心区别在于闭环能力:助手是单点辅助,而智能体可串联完整开发-测试-审查流程[28] - 智能体具备"动脑、动手、动嘴"的自主执行能力,能在DevOps平台上自动执行代码生成、测试、验证、提交PR等任务[31] - 实现从开发意图输入到代码生成与自测的完整AI流程闭环,预计至少还需要一年以上时间[30] AI落地研发面临的主要挑战 - 当前最大问题在于AI效果缺乏稳定性,收益不足以抵消改变工作习惯的成本时落地困难[20] - 算力问题影响使用体验,响应速度从2分钟降至10秒可显著提高用户容错意愿[22] - 用户提示词能力差异导致使用效果悬殊,有的用户AI参与率能达到50%,有的不足10%[22] - 在大型存量代码库中,AI难以处理庞大上下文,常出现不符合逻辑的修改[20] AI时代对人员能力模型的新要求 - 提示词工程成为关键能力,需要让模型进行"角色扮演",通过严谨结构和细颗粒度输入确保理解准确[23] - 知识工程能力日益重要,需要将团队流程规范、协作规范等整理成明确文档供模型学习引用[24] - 未来工程师价值将体现在架构视角和整体技术思维,AI加速了各角色从"执行者"向"评估者"或"决策者"的转变[37][38] - 全栈工程师价值可能更高,AI使精通多种语言成为可能,能显著提升个人能力边界[39] 行业发展趋势与生态建设 - 更倾向于发展轻量化、插件化生态而非统一大平台,先观察AI在各环节改进效果再谈平台化整合[32] - DevOps层面可能出现更高抽象层次的AI工作台,整合数据检索、任务调度、执行分析等能力[32] - 目前几乎没有公司把"AI生成代码比例"写入绩效考核体系,更倾向于通过文化与引导而非考核推动普及[33][34][35] - AI带来的不是岗位消亡而是岗位价值重塑,开发和测试岗位将转向更具策略性和创造性的工作[35]
智能体崛起,AI+软件研发到新拐点了?
36氪· 2025-11-13 12:51
LLM原生开发时代的现状与挑战 - 行业认为AI编程正处于范式变革的临界点前夕,尚未完全达到真正的范式变革 [2] - AI在相对独立、结构清晰的小任务或0到1的创新场景中表现突出,但在复杂庞大的现实任务中挑战巨大 [2] - 越来越多公司披露其代码中AI生成比例快速上升,部分团队已超过50%,AI已深度介入代码生产 [3] - 从整体影响力和效率提升角度看,AI编程还未达到真正的范式变革,目前只是走在半坡上 [3][7] AI已实现自动化的开发环节 - 在Design to Code方向,通过图像理解与设计稿解析结合,代码生成可用度达到80%至90% [9][10] - 多端代码转换任务中,AI生成质量可达70%以上,整体提效约达原来的1.5倍 [11] - 代码审查方面,结合规范进行自动检测,测试阶段bug数量下降幅度达30%-40% [11] - 在测试用例生成方面,平安集团内部用例数据生成覆盖率已达60%左右,复杂接口测试脚本生成时间从数小时缩短至几分钟 [14][15] - AI擅长替代重复性、机械性任务,如中英文版本代码互转,让程序员将时间投入到更复杂工作中 [12] AI落地研发面临的主要障碍 - 最大问题在于AI效果缺乏稳定性,收益不足以抵消改变工作习惯的成本时落地困难 [16] - 在大型存量代码库中,AI难以处理庞大上下文,常出现不符合逻辑的修改 [16] - 信任建立是关键挑战,初期使用中AI回答不准确会降低用户信任度 [17] - 算力问题影响使用体验,响应速度直接影响用户容忍错误的意愿 [18] - 提示词质量差异导致使用效果差距巨大,低效使用者因输入模糊导致模型误解意图 [18][19] 从AI助手到智能体协作的演进 - 智能体与助手的核心区别在于闭环能力,智能体可以串联完整的开发-测试-审查流程 [25] - Coding Agent代表通用智能体的发展路径,能独立完成软件研发任务,潜力远超特定工具层面的自动化 [5][27] - 行业更倾向于发展轻量化、插件化生态,而非大一统平台,当AI能稳定接管50%以上流程后再谈平台整合 [28] - 要实现人类仅输入开发意图,后续由AI完成代码生成与自测的流程,预计至少还需要一年以上时间 [26] AI时代的人才价值重塑 - 未来工程师价值体现在全局视角和系统架构理解能力,而非单一技能 [33][34] - 架构师价值被放大,因为AI在小任务上出色但系统层面设计仍需人类把控 [35] - 协作能力成为关键差异,清晰与AI沟通任务的能力可带来五到十倍的效率提升 [35] - 全栈工程师价值更高,AI帮助突破语言壁垒,使个人能力边界得到显著扩展 [36] - 产品经理需要既懂技术又懂业务与测试,具备全面理解能力的人才更具不可替代性 [34]
从模型为王到应用为王:AI 中间件的基建之战 | 直播预告
AI前线· 2025-09-20 13:33
行业核心趋势 - 行业竞争焦点正从模型本身转向AI应用的落地效率 [2][6] - 一场围绕AI中间件的基建之战正在开启 [2][6] - 行业处于从模型为王向应用为王过渡的关键阶段 [2] 技术发展挑战 - 当前AI领域面临模型触手可得但实际落地举步维艰的困境 [2][6] - 企业级AI中间件需要解决落地成本和管控难题 [3] - 技术发展需要从云原生平滑过渡到智能原生架构 [3] 应用落地重点 - RAG框架需要从简单搭建升级到真正可用的工程化实践 [7] - Agent应用工程化落地需要建立明确的架构范式 [7] - Coding Agent在研发全流程具有显著的应用和提效潜力 [7] 人才发展机遇 - 开发者面临成为智能时代核心人才的红利机遇 [3][6] - Agentic AI应用前沿技术是当前重点发展方向 [7]
LangChain 推出开源异步编码智能体 Open SWE
AI前线· 2025-08-23 13:32
产品定位与架构 - 推出完全开源的异步编码智能体Open SWE 专为云端运行和复杂软件开发任务设计 代表从实时副驾驶助手向自主长期运行智能体的转变 [2] - 采用多智能体架构(Manager Planner Programmer Reviewer)生成高质量代码 Reviewer在创建拉取请求前检查错误以减少构建失败和重复审查周期 [3] - 基于LangGraph构建并通过LangGraph平台部署 该平台针对长期运行智能体优化 提供持久性 扩展性和部署灵活性 支持自托管企业部署 [5] 功能特性 - 直接连接GitHub仓库 通过GitHub Issues或专用UI分配任务 可研究代码库 生成计划 编写测试代码 审查并打开拉取请求 [2] - 在安全隔离的Daytona沙箱中运行 允许自由执行shell命令而不危及宿主环境 完全云端运行 并行处理多任务不消耗本地资源 [2] - 支持人在回路控制 开发人员可中断任务 请求更改或提供新指令无需重启 计划阶段可接受编辑或拒绝建议策略 支持双重文本功能 [3] 生态与市场反馈 - 在GitHub提供完整文档 支持开发人员扩展 自定义提示或集成到内部系统 定位为生产就绪助手和社区创新基础 [7] - 早期反应褒贬不一 Hacker News用户质疑LangChain生态系统能力 认为其智能体构建存在危险信号 [6]
巨头博弈下,Agent 的机会和价值究竟在哪里?
海外独角兽· 2025-06-14 19:42
核心观点 - 2025年是Agent技术加速发展的关键年份,但真正实现用户价值闭环的产品仍稀缺 [6] - Agent的真正门槛在于基础设施而非模型能力,包括记忆系统、上下文感知、工具调用和可控环境等模块 [6] - Coding被视为衡量AGI最关键的先验指标,可能占据大模型产业阶段性90%的价值 [6][45] - AI Native产品需要构建同时服务于AI和人类的双向机制 [34] - Agent商业模式正从按token/调用次数计费向按结果/工作流计费演进,未来可能出现直接雇佣Agent的模式 [6][39] 01 通用Agent是大模型公司主战场 - 通用Agent领域表现最佳的是"模型即Agent"(Model as Agent)模式,如OpenAI的Deep Research和o3模型 [12] - 通用Agent市场已成为大模型公司的主战场,创业公司难以仅靠通用需求做大 [13] - 垂直领域Agent分为前台(与人交互)和后台(重复性工作)两类,典型案例包括HappyRobot(物流沟通)和AI for Science创业公司 [14][15] 02 Cursor是从Copilot发展到Agent - Cursor通过三个阶段完成从Copilot到Agent的转型:自动补全→代码重构→后台异步执行 [22][23] - 关键策略是先从Copilot切入收集用户数据,逐步过渡到Agent形态,而非一开始就追求完全自动化 [18] - 产品设计注重用户交互心智,通过同步交互收集反馈数据,为后续Agent能力奠定基础 [23] 03 Coding是衡量AGI最关键的先验指标 - Coding数据具有干净、可验证、易闭环的特性,最可能率先实现数据飞轮 [24] - 数字世界是实现AGI的第一环境,Coding能力提升将带动指令遵循等核心能力 [25] - 若AI无法规模化完成端到端应用开发,在其他领域进展会更缓慢 [25] 04 做一个好的Agent需要什么条件 - 需要构建可验证的反馈机制和数据飞轮环境,如代码和数学领域 [26] - 产品需同时考虑人和Agent的需求,实现AI Native设计 [28] - 评估标准包括任务完成率(行业及格线约50%)、成本效率(计算/时间成本)和用户指标(留存/付费率) [30][32][33] 05 Agent定价会从基于成本转向基于价值 - 商业模式演进路径:按成本→按动作→按工作流→按结果→按Agent本身 [39] - 典型案例Hippocratic AI的AI护士成本仅为人类护士的1/4 [39] - 未来可能出现智能合约模式,通过Crypto技术实现Agent经济价值分配 [40] 06 人与Agent该如何交互协作 - 交互模式分为Human in the loop(持续参与)和Human on the loop(关键节点介入) [41] - 未来高重复性任务将实现高度自动化,人类仅需复核摘要 [42] - 新的异步协同方式将出现,需要探索Agent与Agent之间的交互机制 [43] 07 Agent爆发离不开Infra - 环境(虚拟机/浏览器)是Agent开发早期80%问题的根源 [55] - 关键基础设施包括上下文管理(记忆/检索)、工具发现平台和安全机制 [57][58] - 未来机器搜索需求可能达万亿次/天,远超人类搜索规模(200亿次/天) [59] - 大厂分化明显:Anthropic专注Coding,OpenAI布局多方向,Google具备端到端能力 [52][53]
拾象李广密:Coding Agent是观测Agent趋势的关键点
快讯· 2025-05-25 17:02
AI行业趋势 - 年内将出现两个确定的AI趋势:长窗口和Agent,特别是Coding Agent的规模化应用 [1] - Coding Agent将端到端地完成有经济价值的软件应用开发 [1] - Coding Agent是观测通用Agent发展的关键,因其逻辑性、可验证性和闭环性 [1] - 若Coding Agent未能大规模替代初级程序员或完成经济任务,其他通用Agent的发展可能更慢 [1] Coding Agent的重要性 - Coding Agent被视为最简单且可验证的通用Agent类型 [1] - 其发展进度可能直接影响其他通用Agent的推进速度 [1] - 规模化应用将聚焦于替代初级程序员和创造经济价值 [1]