Coding Agent
搜索文档
从 Clawdbot 到 26 年 AI Coding 主题大爆发|42章经
42章经· 2026-02-13 21:04
AI Coding与Agent能力跃迁 - AI Coding能力已跨越奇点,人类介入比例从过去的10%降至约0.1%,系统可自主运转[5][8] - 对AI Coding能力评分:25年初不及格,后提升至60分(小局部工作),再到80分(大模块架构与组织),目标90分(复杂项目设计与审查)[9][10][11] - 在10万行代码以内的项目中,AI的表现优于高级工程师团队,且速度更快[12] - 个人重度使用案例显示,每日消耗近十亿级别Token,产出数万行代码,相当于数十人月工作量[12] - 部分公司内部代码已100%由AI编写,未来软件开发可能呈现两极分化:100%人类手写或100%AI生成[13][14][16] 关键产品与技术演进 - **Claude Code**:定义了本轮Agent的形态基础,标志着大模型能够操控现实世界,从编程切入因其可控性,未来通用Agent形态很可能就是编程Agent[16] - **长上下文信息召回率**:关键指标从GPT-5.1的约30%提升至GPT-5.2的近90%,这对Agent在多轮复杂任务中的准确性至关重要[17] - **Agent的Context Engineering**:在System Prompt和Tool Use编排上的最佳实践由Claude Code引领并快速传播[17] - **Cowork**:本质是Claude Code的插件,封装了Computer Use能力,底层逻辑无重大突破[18][19][20] - **Skills**:优于MCP的封装方案,因其组合性更强(自然语言可叠加)、更易上手(可直接让Coding Agent现场编写)[25][26][27][29][30] - **Clawdbot**:运行在本地电脑的全能助手,能以自然语言交互,控制鼠标键盘完成几乎所有操作,底层是类似Claude Code的编程Agent[31][32][33][34] - Clawdbot被猜想为未来操作系统的雏形:内核是聪明的编程Agent,上层是Skills,最外层是交互界面[34] - Clawdbot设计包含记忆系统,可长期积累和成长,并能通过编程自我补强能力,实现一定程度的自我演化[41][42][46][47] - **moltbook**:一个AI社区,Clawdbot等AI可接入并互相交流技巧、改进工作流,展现了多智能体协作与能力涌现的潜力[47] 市场影响与未来趋势 - AI Coding能力的成熟使得直接套用AI Coding和Agent的壳成为新趋势,而非简单套用大模型[34] - 技术平权仍处早期,Clawdbot等高门槛产品的意义在于展现新的可能性,预计未来将有更多团队推出易用产品,让更多人体验[48] - 2026年AI应用层预计将迎来大爆发,AI Coding带来的体验升级将快速扩展到设计等其他领域[49][61] - 全球算力出现短缺,叙事重回堆算力,因AI Coding、多模态应用等对Token的消耗远高于早期Chatbot[59][60][62] - 未来创业方向可能集中于两个极端:追求极致“人味”(解决AI无法替代的人际连接与长尾需求)和追求极致效率(用AI将效率提升数个数量级)[52][53][54][55] - 介于“极致人味”与“极致AI”之间的业务将越来越难做[56] 组织形态与人才需求演变 - 未来组织可能由独立模块构成,每个模块由一位高级工程师负责,带领一群Agents工作,核心能力是判断与决策[67] - 模块与Agents之间协作需求降低,因单元效率极高,协作易引入问题,清晰的边界和共同目标变得更为重要[67][74][75] - 对工程师的建议是思考如何成为更有趣的人,因为编程将日益工具化,想法和创造力变得更为重要[64][65] - 编程可能分化为不同赛道:用AI满足刚需、满足竞技/艺术/审美需求、以及创造本身带来成就感的Builders[66][67] 基础设施与概念创新 - **Box概念**:作为Skills的延展或组合基础设施,将技能与完整的执行环境绑定,隔离副作用,使原子能力可被稳定、重复调用和组合[68][70][71][72] - Box的实践案例包括封装登录、下单等固定流程,为Agent提供稳定的执行空间[71] - AI当前的主要瓶颈从技术能力转向经济学问题,即算力成本与使用ROI的权衡[50][51] - AI已能覆盖所有在电脑上完成的任务,但物理世界任务(如取外卖)仍是局限[49]
我们离Coding领域的「AGI时刻」还有多远?字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准
机器之心· 2026-02-13 09:02
文章核心观点 - 当前AI编程领域存在认知错觉,即认为Coding Agents能独立完成复杂任务就等同于实现编程领域的AGI,但真正的项目级开发远不止局部代码生成[2] - 首个评估编码智能体端到端仓库生成能力的基准测试NL2Repo-Bench发布,旨在从“人类不再直接写代码”的愿景出发,严格评估智能体从零生成完整、可运行代码仓库的能力[2][5] - 基准测试结果显示,当前最强的Coding Agent(Claude 4.5)整体通过率仍低于40%,多数模型表现仅在20%左右,表明在真实复杂的项目级开发任务上,AI与AGI愿景仍有巨大差距[20] NL2Repo-Bench基准测试概述 - NL2Repo-Bench是首个专门评估编码智能体端到端仓库生成能力的基准测试,由字节跳动Seed、南京大学、北京大学等机构联合打造[2] - 基准测试要求智能体从完全空白的初始工作空间开始,仅依据平均长度超1.8万token的长篇需求文档,自主完成需求理解、开发、测试、多文件协同管理等全链路工作,最终产出可安装、可运行的代码仓库[5] - 基准测试采用“零代码执行评估”机制,正确性严格通过在原始项目的测试套件中运行生成的代码来衡量[5][7] 评测数据集构建与任务选取 - 基准测试从GitHub挑选了104个拥有完备pytest测试用例的Python开源项目作为任务[5][14] - 任务筛选设定了多维准入门槛:近3年有更新、GitHub星数至少为10、包含清晰目录结构和完整测试用例、代码总行数需在300行以上(大部分超1000行,部分过万行)、覆盖工具类、框架类、算法类等多个Python库类型[8][9][10][11][12] - 选择Python Library级别仓库是因为其开源属性与规范化程度契合验证机制,为评估仓库级代码生成提供了科学的实验场[12] 评测流程与质量控制 - 为确保任务文档质量,构建了自动化工具与人工深度参与相结合的验证体系[16] - 技术流程包括:利用静态扫描工具提取关键架构信息;通过“人工专家+AI工具”双重校验确保需求描述无遗漏;精细化配置评测环境以消除环境波动干扰[18] - 每项任务必须通过人工文档审核、静态工具检测、镜像环境验证及预实验验证四个阶段,形成全生命周期的质量控制闭环[18] 主要Coding Agent性能表现 - 在NL2Repo-Bench测试中,表现最佳的Claude 4.5整体通过率为40.2%,多数模型整体表现仅在20%左右[20][21] - 模型表现随任务难度上升而快速下降:在简单任务(代码行数<1.5k)中,Claude 4.5通过率为51.8%;在中等任务(1.5k-4k行)中为44.5%;在困难任务(>4k行)中降至25.1%[21] - GPT-5表现意外掉队,整体得分仅为21.7%,分析认为其交互策略存在缺陷[20][21] 模型开发策略的典型问题与消融实验 - 模型开发策略存在典型问题:早停(缺乏长程规划)、未终止(频繁等待用户指令)、盲目编辑与导航陷阱(缺乏系统性规划)[23] - 消融实验1:交互轮次增加到200次左右可显著提高模型表现,但即使在“开卷考试”(提供测试用例)条件下,模型也难以突破60分[22] - 消融实验2:为Claude 4.5提供测试用例后,其整体得分从40.2%提升至59.4%,但在各难度任务上的通过率(Pass@1)依然较低,表明当前Coding Agent即使有辅助也较难完成完整仓库的长程开发[25][26]
Zed 为什么不用自己造 Agent?OpenAI 架构师给出答案:Codex 重划 IDE × Coding Agent 的分工边界
AI前线· 2026-01-21 15:00
Coding Agent的构成与核心架构 - 一个Coding Agent由三部分组成:用户界面、模型和Harness(工具集)[4] - Harness是直接与模型交互的核心Agent循环,由一系列提示和工具组合而成,为模型提供输入和输出[4] - 将模型与Harness一同开发,能更好地理解模型的行为,这是Codex作为集成系统的优势所在[5][10] 构建高效Harness面临的挑战 - 新工具适配问题:为Agent提供模型从未见过或不擅长使用的创新工具时,需要花费时间根据模型特点调整Prompt[8] - 延迟与用户体验:模型处理问题需要时间,需设计提示以避免延迟过长,并决定如何向用户展示模型的思考过程[9] - 上下文窗口与数据压缩:管理上下文窗口和数据压缩是一大难题,需决定何时触发压缩及重新注入数据[9][12] - API接口变化:API接口不断变化(如完成功能、响应功能),需确保模型能熟练使用新工具以发挥最大智能[9] - Prompt设计复杂性:将模型适配到Harness中需要大量的Prompt设计,需理解模型的“习惯”(即训练形成的解决问题方式)[9][10] Codex作为Harness/Agent的功能与能力 - Codex被设计成适用于各种编程环境的Agent,可作为VS Code插件、CLI工具使用,或通过云端调用[12] - 核心功能包括:将提示想法转化为可运行代码、在代码仓库中导航并编辑文件、执行命令和任务、审查PR[12] - Harness需处理复杂任务:并行工具调用、线程合并、安全性(沙箱管理、权限设置)、数据压缩和上下文优化[12] - 能力扩展:Codex不仅能处理Coding任务,任何能通过命令行工具表达的任务(如整理文件、分析CSV数据)都能执行[13] 利用Codex构建自定义Agent的模式与集成 - 关键模式是使Harness成为新的抽象层,开发者无需在每次模型升级时优先优化提示和工具,可将精力集中于产品的差异化功能[5][15] - Codex提供多种集成方式:作为SDK通过TypeScript或Python库调用、提供GitHub动作自动合并PR冲突、可添加到AgentSDK并提供MCP连接器[15] - 企业级应用:可构建能为每个客户即时编写插件连接器的软件,实现完全可定制化,并具备自我对话与自动修复bug的能力[17] - 合作伙伴案例:GitHub利用Codex SDK成功集成;Cursor团队通过将其Harness与开源的Codex CLI对接,优化了系统性能[18] Codex的发展现状与未来展望 - Codex是增长最快的模型之一,每周服务数十万亿个token,该数字自开发日以来已翻了一番[18] - 未来模型将变得更强大,能处理更长周期的任务且无需监督,对新模型的信任度将进一步提高[18] - 未来重点将是处理庞大代码库和非标准库,支持在闭源环境中工作并匹配现有模板和实践[5][19] - SDK将持续发展,以更好地支持模型能力,使模型能在执行任务中不断学习,并为解决终端问题的Agent提供更多支持[19]
深度|OpenAI产品经理谈Codex爆发式增长背后的AI协作:实现AGI级生产力的真正瓶颈是人类的打字速度!
Z Potentials· 2026-01-19 11:02
文章核心观点 - OpenAI的Coding Agent产品Codex自2024年8月ChatGPT5发布以来,规模已增长20倍,目前每周处理数万亿个字符,成为公司最核心的代码生成模型 [3][19] - Codex的愿景不仅是辅助编写代码,更是成为软件工程团队中具备“主动性”的协作伙伴,旨在无缝融入工作流,极大提升人类工作效率 [9][17][28] - 当前AI发展的一个关键瓶颈并非模型能力,而是人类与模型交互时的物理和认知限制,如打字速度和多任务处理能力 [9][76] - OpenAI通过自下而上、高度灵活的组织结构,以及产品与研究的深度融合,实现了Codex等产品的爆炸式增长和快速迭代 [10][12][19][27] OpenAI的组织与运营模式 - OpenAI的组织结构强调自下而上,赋予团队高度自主性和灵活性,以快速尝试和适应不确定的技术与市场环境 [12] - 公司擅长讨论一年或更久之后的长期愿景,但对于数月内的战术性目标,更倾向于通过实证探索来解决,采取“准备、开火、瞄准”的模糊目标策略 [13] - 这种高速发展依赖于汇聚全球顶尖的精英人才,其个体驱动力和自主性构成了组织模式的基石,难以被简单复制 [14] Codex的产品定位与爆发式增长 - Codex是OpenAI的Coding Agent,可作为IDE扩展或终端工具安装,用于回答代码问题、编写、运行测试及处理软件开发生命周期中的多项工作 [15] - 产品定位是成为软件工程团队的“团队成员”,未来将参与从早期创意规划到后期验证、部署和维护的全过程,而不仅限于代码自动补全 [15][18] - 增长关键源于产品形态的调整:从部署门槛较高的云端异步产品(Codex Cloud),转向与开发者日常工具深度整合的本地交互式产品,降低了用户使用门槛并建立了高效的反馈循环 [21][22][23] - 内部试用与市场反馈存在差异,公司内部因熟悉与模型交互而能高效使用异步模式,但普通用户更需要符合直觉的交互方式 [24] 技术栈协同与能力提升 - Codex能力的提升是模型、API和工具环境三个技术栈层面协同优化、并行推进的结果 [25][27] - 最新模型GPT 5.11 CodexMax在执行效率上比前代提升约30%,并解锁了更强的智能和推理能力,能够解决极其棘手的漏洞 [24] - 通过“上下文压缩”等技术,使模型能够长时间持续运行(如通宵或24小时),这需要模型、API接口和工具环境三者的协同支持 [26] - 公司专注于让模型通过命令行界面在沙箱环境中运行,这种针对特定模式的深度优化加速了研发进度 [27] 实际应用案例与效率提升 - Codex助力Sora团队在18天内完成了Sora安卓应用从0到1的开发,并在总共28天内实现公众发布,该应用随后成为App Store排名第一的应用 [47][48][49] - 在Atlas浏览器项目中,以前需要两三名工程师花费两三周的任务,现在一名工程师一周即可完成,效率提升显著 [52][54] - 产品应用已超越工程部门,设计团队使用Codex快速制作动画原型,产品营销人员可直接在Slack上修改文案,体现了“压缩人才层级”的趋势 [46][53] - Codex被用于编写一次性代码,如快速构建交互式数据查看器,推动了代码的普及化应用 [46] 对AI发展、编程及未来工作的看法 - 构建任何Agent的本质都应是构建Coding Agent,因为模型使用计算机的最佳方式就是编写代码 [9] - 未来岗位界限将变得模糊,自然语言成为新的、灵活性极高的抽象层级,但技术的抽象层级提升将是渐进式的 [55] - 在AI时代,对目标用户需求的深度洞察比单纯的技术执行力更为重要,这更有利于垂直领域的AI创业公司 [58] - 对于软件工程教育,理解系统构建原理、系统工程能力及团队协作技能将比掌握具体的编码语法更为重要 [72][74] - 交互界面的未来可能超越聊天模式,向更情境化、低门槛的方式演进,例如设想中的通过滑动视频流与Agent交互的应用 [38][40] 产品开发与评估重点 - 产品团队关注避免过度开发深度功能,重点监测如7日留存率等早期用户留存指标,并以全新用户身份体验产品流程 [59] - 高度重视来自社交媒体(尤其是Reddit)的真实用户反馈,特别是负面评价,以发现特定功能问题并指导优化 [60][62] - 建议用户以最真实、棘手的任务来测试Codex,以此作为与这位“新团队成员”建立信任和熟悉度的最佳方式 [68][70]
Zed 为什么不用自己造 Agent?OpenAI 架构师给出答案:Codex 重划 IDE × Coding Agent 的分工边界
AI前线· 2026-01-17 14:25
Coding Agent的构成与核心价值 - Coding Agent由三部分组成:用户界面、模型和Harness [3] - 用户界面可以是命令行工具、集成开发环境或云端/后台Agent [3] - 模型可以是GPT-5.1系列或其他供应商模型 [3] - Harness是核心Agent循环,由一系列提示和工具组合而成,作为模型与用户、代码交互的媒介 [3][6] - 将模型与Harness一同开发,能更好地理解模型行为,这是Codex作为集成系统的优势所在 [4][8] - 单纯在模型上构建包装器忽视了基础设施层的整体价值,应将精力集中在让产品脱颖而出的差异化功能上 [4][12] Harness构建的挑战与设计原则 - Harness构建面临多项挑战:处理模型未见过的创新工具、根据模型特点调整提示、管理模型响应延迟、设计用户体验以展示模型思考过程、管理上下文窗口和数据压缩、适应不断变化的API接口 [6] - 将模型适配到Harness需要大量的提示设计,模型的行为可理解为“智能”加上“习惯” [7] - 理解模型的习惯是成为优秀提示工程师的关键,应让模型按照其习惯的方式工作,而非过度引导 [8] - 例如,GPT-5模型若被过度引导查看所有内容,会导致响应速度慢,效果不如预期 [8] Codex系统的功能、集成与用例 - Codex被设计成适用于各种编程环境的Agent,可作为VS Code插件、CLI工具使用,或通过VS Code插件、手机上的ChatGPT在云端调用 [9] - 其基础功能包括:通过提示将想法转化为可运行代码、在代码仓库中导航并编辑文件、执行命令和任务、从Slack或GitHub调用以审查PR [9] - Codex的Harness需要处理复杂任务:并行工具调用、线程合并、安全性(沙箱管理、提示语转发、权限设置、端口管理)、数据压缩和上下文优化 [9] - Codex的应用场景广泛:从整理桌面照片到分析文件夹中大量的CSV文件进行数据分析,只要任务能以命令行及文件任务形式表达,Codex就能执行 [10] - Codex是一个SDK,可通过TypeScript库或Python调用,还提供GitHub动作以自动合并PR冲突,并可添加到AgentSDK中,为产品提供MCP连接器 [12] - 公司可与客户合作,将Codex嵌入到产品中,例如Zed将其嵌入IDE层级,专注于打造最好的代码编辑器,而GitHub等顶级合作伙伴已利用该SDK直接集成Codex [15] 行业趋势与Codex发展前景 - Coding领域是应用人工智能最活跃的前沿之一,新模型不断发布,团队需不断调整Agent以适应新模型 [5] - 未来将是关于庞大代码库和非标准库的时代,模型需支持在闭源环境中工作、匹配现有模板和实践 [4][16] - Codex Max推出后变化迅速,目前是增长最快的模型,每周服务数十万亿个token,该数字自开发日以来已翻一番 [16] - 预计模型将变得更强大,能处理更长周期的任务且无需监督,新模型的信任度将进一步提高,能够处理比六个月前更复杂的工作 [16] - SDK也将不断发展,以更好地支持模型能力,使模型能在执行任务过程中不断学习,避免重复错误,并为写代码和使用终端解决问题的Agent提供更多支持 [16]
MINIMAX-WP午前拉升逾10% 宣布开源代码智能体系统性评测集OctoCodingBench
智通财经· 2026-01-16 13:19
公司股价与市场动态 - 公司股价午前拉升逾10%,截至发稿涨8.16%,报387.2港元,成交额达3.52亿港元 [1] 技术进展与行业地位 - 公司近日开源了业内首个专门面向Coding Agent设计的综合性评估基准OctoCodingBench [1] - 评测结果显示,在关键指标“过程合规”方面,部分开源模型表现已快速逼近甚至在某些场景下超越部分闭源模型水平 [1] - 公司以“反共识”的战略定力聚焦模型智力突破,正从行业竞争中脱颖而出 [2] - 公司是上海首批获得大模型备案的企业 [2] 行业趋势与竞争焦点 - 人工智能向Agent时代演进过程中,“数据与评测范式”正逐渐取代单一模型性能,成为行业竞争新焦点 [1] 财务预测与增长前景 - 中信建投预测,2025-2027年公司营收将保持90%以上的高速增长 [2] - 公司Non-GAAP毛利率有望提升至55% [2] - 公司净亏损率预计将持续收窄 [2] 未来展望与市场空间 - 随着推理成本优化与新一代多模态模型落地,公司有望在AI原生应用领域开辟更大市场空间 [2]
AI Coding 生死局:Spec 正在蚕食人类编码,Agent 造轮子拖垮效率,Token成本失控后上下文工程成胜负手
36氪· 2025-12-30 17:21
AI Coding生态演进:从补全到Agent主导 - AI Coding的演进分为两个时代:第一波由Copilot与Cursor开创,以人为主导,AI角色是预测“下一个字符”或“下一个编辑位置”,端到端时延被严格压在几百毫秒量级,模型规模和上下文长度受天然约束 [2] - 第二波在过去6–12个月迎来范式颠覆:Agent崛起,直接接管从需求分析到代码生成、工具调用到结果验证的任务 [2] - 随着模型能力与工具链完善,Agent会覆盖从需求到交付的更多环节,逐渐成为主流程;补全范式可能退居幕后,成为支撑Agent精细执行的底层能力之一 [3] 工具形态演化:IDE、CLI与Cloud并行 - 头部编程工具演化出三种形态并行:IDE、CLI、Cloud,用户需要的是在不同场景下都能交付任务的完整链路 [4] - CLI和Cloud Agent从一开始就是Agent主导形态,对UI要求不高,在Terminal或简化Web界面工作,用GitHub PR协作和交付 [4] - IDE依然被判断为最多人使用的入口,最符合程序员长期形成的工作习惯,但其形态本身很可能在三年内发生根本变化,不再以Editor为中心展开 [4][5] - IDE正在从“给人用的工具箱”变成“给AI和人一起共用的工具箱”,大量以人为中心设计的能力被拆解为更小、更明确、更AI友好化的Tool,供AI Agent按需调用 [5] Spec驱动开发的兴起与挑战 - Spec驱动开发在过去几个月迅速流行,仓库中堆起面向Agent的“Markdown脚手架”,被视为AI Coding的前沿解法 [1] - 行业对“Spec”的定义存在分歧:有人认为是更好的Prompt、更详细的产品需求文档、架构设计文档,或是“在写代码的时候,多用几个Markdown文件” [8] - 一线工具团队认为Spec与上下文工程(Context Engineering)不是一回事:Spec是上下文中最关键、最稳定的一类内容,承担“指导性Context”的角色,相当于给Agent一份可执行的契约;而上下文工程关注模型在当下是否拿到了足够的信息 [9] - Spec是一切用于指导代码生成的契约总和,可包括产品文档、设计稿、接口定义、边界条件、验收标准、执行计划等,但因其覆盖范围广、形态多、生命周期长而难以标准化 [9][10] - Spec标准是否有效取决于应用场景,因为它本质上是用一种文档/结构去交换正确性、效率、维护成本三样东西,不同场景对这三者的权重不同 [12] Spec与软件工程复杂性的对接 - Spec试图接住软件工程几十年积累下来的复杂性,其标准本质上是软件工程理论在AI编程工具中的具象化 [10] - 争议在于Spec驱动开发是否会导致“瀑布流程回归”,即在编码前完成大量文档工作,试图将开发人员从过程中剔除 [13] - 从工程视角看,Spec Coding真正想结构化的并非开发者的全部思考过程,而是那些最容易在长程任务里出错、最值得被验证和沉淀的部分 [13] - Spec更合理的形态是“活的契约”,是Plan-Execute闭环中的关键中间态,在推理-执行-反馈过程中不断校准Spec和代码制品的一致性 [14] - 从软件抽象发展历史看,Spec被视为在自然语言层级上尝试迈出的下一次抽象升级,但自然语言的模糊性决定了这是一条充满挑战、尚无成熟范式的探索路径 [15] Agent的“自己造轮子”问题与抽象复用 - Coding Agent在实践中存在一个被大量开发者吐槽的问题:极其偏好“自己从零开始实现功能”,而不是复用成熟库 [16] - 对模型而言,“自己写一个能跑的版本”往往是风险最低的路径,当它对某个库的版本、用法或边界不确定时,回退到“自己实现”几乎是必然选择 [17] - 解决此问题的关键不在于对Agent进行人工纠偏,而在于补齐其可依赖的信息源,例如通过MCP工具补齐版本、用法与示例,再用“渐进式披露”把正确用法注入任务上下文 [17] Token成本失控与上下文管理成为核心 - Token成本在2025年突然复杂了一个数量级,根本原因在于范式迁移:大模型应用从“问答”跃迁到“Agent做事”,Token成本成为贯穿推理—执行—反馈链路的全生命周期成本 [18][19] - 关键变化是工具调用的隐形成本开始吃掉大头,为了完成一个任务往往需要多轮对话,每轮对话背后又会经历几次到几百次不等的工具调用 [20] - Spec Coding和多Agent协作让成本结构继续膨胀:Spec/Plan/ToDo/变更说明/验收清单等中间产物被反复生成、引用与迭代,形成新的上下文常驻内容;多Agent又把Token变成通信效率问题 [21] - Token工程的真正战场是上下文管理,目标是最大化KV cache命中率,避免在长程Agent任务中被重复、无意义的上下文刷新拖垮吞吐和稳定性 [22] - 上下文工程的技术演进从早期的Prompt Engineering,逐步演进到更系统化的Context Engineering,实践表明以RAG为代表的“外挂式知识补充”在工程上更具性价比 [23] 上下文工程的技术演进路径 - 随着Coding Agent出现,交互从单轮对话转向多轮、长期的Agent Loop,相关信息由Agent在执行过程中按需检索与召回,这催生了embedding search与grep等能力的逐步登场 [24] - Cline和Claude Code在今年就从传统的RAG转向grep [24] - embedding search并未过时,它更像是数据库中的index,在特定条件下能提升召回效率,而grep在确定性和精确匹配上具备优势,两者服务于不同的检索阶段和需求类型 [24] - 随着任务复杂度增加,Agentic Search逐渐演化出来,并与Sub Agent机制协同出现,例如专门的Search Agent负责多轮检索、筛选与验证 [25] - 行业逐渐意识到真正稀缺的不是上下文长度,而是有效Context的组织能力,需通过缓存、裁剪、摘要、检索等机制把Token的边际成本控制在工程可接受的范围内 [25][26] AI编程的系统工程视角 - AI编程被视为一个至少由四层构成的系统工程:模型层负责“思考”,Tool层负责“行动”,IDE层承载人机交互,上下文层负责“记忆与连续性” [27] - 模型层决定上限;Tool层决定它能不能真的做事;IDE层决定人是否能高效表达意图、及时纠偏;上下文层把这一切粘合在一起,承载历史决策、工程约束与连续性,是长期可靠性的基础 [27] - 未来AI编程的真正分水岭,或许并不仅仅在于“谁的模型更强”,而还在于谁能持续、准确地把工程世界中那些原本隐性的约束、记忆和共识,转化为模型可理解、可执行、并可被反复验证的上下文结构 [27]
Codex负责人打脸Cursor CEO“规范驱动开发论”,18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
36氪· 2025-12-17 10:45
Codex的产品表现与增长 - 自2024年8月GPT-5发布以来,Codex用户增长20倍,每周处理数万亿tokens,成为OpenAI最受欢迎的编程智能体[1][13] - 在Codex的帮助下,Sora团队仅用28天从零到一完成Android应用开发并上线,该应用在App Store排名第一,其中从零到员工测试仅用18天,10天后正式发布[2][4][42] - 过去6个月里,Codex的使用量增长了20倍[7] - 公司内部使用Codex显著加速了工程进程,例如Atlas浏览器项目中,过去需要2-3名工程师花费2-3周完成的功能,现在仅需一名工程师一周时间[43][44] Codex的技术架构与突破 - Codex的成功被归因于一个由模型、API和框架三层构成的完整智能体系统,而非单一模型[1][19][21] - 团队设计了名为“压缩”的机制,使模型能够连续工作24到60多个小时以完成单个长时任务,突破了传统大模型的上下文限制[1][9][18] - Codex采用明确主张,让智能体在shell沙盒环境中工作,这使其能够快速学习并确保系统可靠,区别于市场上依赖语义搜索或自定义工具的其他编码产品[19][22] - 最新发布的GPT-5.1.1 Codex Max模型,在处理相同任务时比前代快约30%,且推理能力显著增强,尤其擅长解决复杂棘手的bug[17] OpenAI的组织文化与战略 - 公司的运作方式被描述为“先射击,再瞄准”,即快速发布产品,再根据真实用户反馈进行迭代优化,这种高速迭代已成为日常[3][8] - 组织架构设计为高度自下而上运作,汇聚了世界顶尖人才,个人动力与自主性极强,这是其高速发展的关键结构性原因[3][6][9] - 公司内部广泛采用“dogfooding”(自用产品)策略,通过在真实环境中持续使用自己的产品(如Codex)来推进产品发展[16] - 公司文化鼓励保持谦逊并通过不断尝试来学习,因为无法确切预知哪些功能最终会奏效[8] Codex的产品定位与愿景 - Codex被定位为开源编码智能体,是VS Code的IDE扩展,旨在参与软件开发生命周期中最繁重的部分,即编写将被部署到生产环境的代码[10] - 当前Codex被比喻为一个“聪明但不会主动的实习生”,大多数用户以结对编程的方式使用它,未来目标是让其成为能够参与软件开发全流程的“主动队友”[2][10][11] - 更广泛的愿景是构建一个“超级助手”,它能够默认提供帮助,深度融入用户的工作流程(如通过聊天或浏览器),而不仅仅是响应指令[12][24][25] - 公司认为,编写代码是人工智能完成任务的通用且最有效方式,未来几乎所有强大的智能体最终都会通过编写代码来工作[7][27] AI对软件工程与产品开发的影响 - AI(如Codex)正在改变工程师的工作内容,从编写代码转向更多地进行设计、系统理解、与AI协作以及代码审查[31] - 当前工程生产力的最大瓶颈并非AI本身,而是人类的输入速度、提示写作速度以及对AI生成工作的审查速度[3][7][60] - 随着构建产品变得更容易,深刻理解特定客户问题变得比单纯擅长产品开发更为重要,这有利于垂直领域的AI初创公司[10][48] - 产品开发方式正在向更高抽象层级演进,例如“规范驱动开发”或更普遍的“聊天驱动开发”,人工智能将能更自然地融入日常沟通流[33][34] Codex的非工程应用与公司内部影响 - 公司内部,设计团队现在可以编写并发布自己的代码,他们维护着由AI辅助构建的功能齐全原型,显著加速了设计流程[7][41] - Codex被广泛用于“一次性代码”任务,例如数据团队构建交互式数据查看器,或设计师创建临时动画编辑器,这体现了“无处不在的代码”理念[41] - Codex加速了从研究、模型训练到设计与营销等公司全链条的运作速度,产品营销人员甚至可以直接在Slack里更新文案[44] - 在模型训练等前沿领域,Codex已开始编写用于管理训练运行和基础设施的代码,并具备监控和提出修复建议的能力,呈现出“自我训练”的雏形[58][59] 行业未来展望与AGI视角 - 公司对AGI到来的一个预判是,第一批出现生产力陡增曲线的用户将在明年出现,其后的变化会加速扩散,当增长曲线异常陡峭时,可能意味着接近AGI[3][61] - 限制AGI发展的因素可能不是模型能力,而是人类自身的瓶颈,如打字速度和审查速度[3][60] - 未来的竞争优势不在于模型彼此比拼速度,而在于构建一个能够编写代码、能力可积累、可组合、可随团队使用而成长的智能体体系[28] - 学习编程依然重要,但重点将转向理解软件系统结构、复杂架构推理以及团队协作能力,使用最新工具的熟练度将成为重要优势[57]
智能体崛起,AI+软件研发到新拐点了?
AI前线· 2025-11-18 13:34
LLM原生开发时代的现状评估 - 行业对大模型在软件开发中的作用存在分歧,部分观点认为其仅是高级自动补全而非范式变革[5] - 大模型在实际开发中呈现"一半是火焰,一半是海水"的两面性:在独立、结构清晰的小任务或0到1创新场景表现突出,但在复杂庞大的现实任务中挑战巨大[5] - 对非研发群体而言已实现范式变革,使其从"不会"到"能"完成软件开发;对专业程序员群体则处于变革拐点阶段,尚未完全实现范式变革[5][6] - 越来越多公司开始披露AI生成代码比例,该比例正在快速上升,部分团队甚至超过50%[6] AI在具体开发环节的应用成效 - 在UI设计稿转代码方面,通过多模态模型结合设计稿解析,代码生成可用度达到80%至90%[13][14] - 在多端代码转换任务中,AI生成代码质量可达70%以上,整体提效约达原来的1.5倍[14] - 在代码审查环节,通过AI结合规范进行自动检测,测试阶段bug数量下降幅度达30%-40%[15] - 在测试用例生成方面,平安集团内部用例数据生成覆盖率已达60%左右,脚本生成时间从数小时缩短至几分钟[18][19] - AI特别擅长替代重复性、机械性任务,如中英文前端代码互转等传统自动化难以覆盖的场景[15] 智能体与AI助手的能力演进 - Coding Agent代表通用智能体的发展路径,能独立完成软件研发任务,潜力远超特定工具层面的自动化[3][31] - 智能体与助手的核心区别在于闭环能力:助手是单点辅助,而智能体可串联完整开发-测试-审查流程[28] - 智能体具备"动脑、动手、动嘴"的自主执行能力,能在DevOps平台上自动执行代码生成、测试、验证、提交PR等任务[31] - 实现从开发意图输入到代码生成与自测的完整AI流程闭环,预计至少还需要一年以上时间[30] AI落地研发面临的主要挑战 - 当前最大问题在于AI效果缺乏稳定性,收益不足以抵消改变工作习惯的成本时落地困难[20] - 算力问题影响使用体验,响应速度从2分钟降至10秒可显著提高用户容错意愿[22] - 用户提示词能力差异导致使用效果悬殊,有的用户AI参与率能达到50%,有的不足10%[22] - 在大型存量代码库中,AI难以处理庞大上下文,常出现不符合逻辑的修改[20] AI时代对人员能力模型的新要求 - 提示词工程成为关键能力,需要让模型进行"角色扮演",通过严谨结构和细颗粒度输入确保理解准确[23] - 知识工程能力日益重要,需要将团队流程规范、协作规范等整理成明确文档供模型学习引用[24] - 未来工程师价值将体现在架构视角和整体技术思维,AI加速了各角色从"执行者"向"评估者"或"决策者"的转变[37][38] - 全栈工程师价值可能更高,AI使精通多种语言成为可能,能显著提升个人能力边界[39] 行业发展趋势与生态建设 - 更倾向于发展轻量化、插件化生态而非统一大平台,先观察AI在各环节改进效果再谈平台化整合[32] - DevOps层面可能出现更高抽象层次的AI工作台,整合数据检索、任务调度、执行分析等能力[32] - 目前几乎没有公司把"AI生成代码比例"写入绩效考核体系,更倾向于通过文化与引导而非考核推动普及[33][34][35] - AI带来的不是岗位消亡而是岗位价值重塑,开发和测试岗位将转向更具策略性和创造性的工作[35]
智能体崛起,AI+软件研发到新拐点了?
36氪· 2025-11-13 12:51
LLM原生开发时代的现状与挑战 - 行业认为AI编程正处于范式变革的临界点前夕,尚未完全达到真正的范式变革 [2] - AI在相对独立、结构清晰的小任务或0到1的创新场景中表现突出,但在复杂庞大的现实任务中挑战巨大 [2] - 越来越多公司披露其代码中AI生成比例快速上升,部分团队已超过50%,AI已深度介入代码生产 [3] - 从整体影响力和效率提升角度看,AI编程还未达到真正的范式变革,目前只是走在半坡上 [3][7] AI已实现自动化的开发环节 - 在Design to Code方向,通过图像理解与设计稿解析结合,代码生成可用度达到80%至90% [9][10] - 多端代码转换任务中,AI生成质量可达70%以上,整体提效约达原来的1.5倍 [11] - 代码审查方面,结合规范进行自动检测,测试阶段bug数量下降幅度达30%-40% [11] - 在测试用例生成方面,平安集团内部用例数据生成覆盖率已达60%左右,复杂接口测试脚本生成时间从数小时缩短至几分钟 [14][15] - AI擅长替代重复性、机械性任务,如中英文版本代码互转,让程序员将时间投入到更复杂工作中 [12] AI落地研发面临的主要障碍 - 最大问题在于AI效果缺乏稳定性,收益不足以抵消改变工作习惯的成本时落地困难 [16] - 在大型存量代码库中,AI难以处理庞大上下文,常出现不符合逻辑的修改 [16] - 信任建立是关键挑战,初期使用中AI回答不准确会降低用户信任度 [17] - 算力问题影响使用体验,响应速度直接影响用户容忍错误的意愿 [18] - 提示词质量差异导致使用效果差距巨大,低效使用者因输入模糊导致模型误解意图 [18][19] 从AI助手到智能体协作的演进 - 智能体与助手的核心区别在于闭环能力,智能体可以串联完整的开发-测试-审查流程 [25] - Coding Agent代表通用智能体的发展路径,能独立完成软件研发任务,潜力远超特定工具层面的自动化 [5][27] - 行业更倾向于发展轻量化、插件化生态,而非大一统平台,当AI能稳定接管50%以上流程后再谈平台整合 [28] - 要实现人类仅输入开发意图,后续由AI完成代码生成与自测的流程,预计至少还需要一年以上时间 [26] AI时代的人才价值重塑 - 未来工程师价值体现在全局视角和系统架构理解能力,而非单一技能 [33][34] - 架构师价值被放大,因为AI在小任务上出色但系统层面设计仍需人类把控 [35] - 协作能力成为关键差异,清晰与AI沟通任务的能力可带来五到十倍的效率提升 [35] - 全栈工程师价值更高,AI帮助突破语言壁垒,使个人能力边界得到显著扩展 [36] - 产品经理需要既懂技术又懂业务与测试,具备全面理解能力的人才更具不可替代性 [34]