Codex Agent
搜索文档
计算机行业周报(04.06-04.12):从Prompt Engineering到Harness Engineering-20260412
湘财证券· 2026-04-12 22:13
行业投资评级 - 维持计算机行业“买入”评级 [1][30] 报告核心观点 - 报告核心观点是AI工程化范式正经历从Prompt Engineering、Context Engineering到Harness Engineering的跃迁,Harness Engineering已成为驱动AI智能体(Agent)实现规模化、复杂化业务落地的关键基础设施 [5][9][30] - 在此趋势下,AI产业景气度有望持续上行 [9][30] 核心概念:Harness Engineering - **词源与定义**:“Harness”一词源自马术,意为“马具”,报告将其比喻为限定和引导底层大语言模型(比作野马)行为的外部框架、控制机制与编排体系,即一套完整的工程化支撑体系 [3][13][20] - **概念起源**:由HashiCorp联合创始人Mitchell Hashimoto于2026年2月首次提出,随后OpenAI和Anthropic等头部厂商通过技术博客和实践明确了该概念 [4][13] - **实践案例**:OpenAI公开实验显示,一支3-7人的工程师团队在5个月内通过Codex Agent生成了超过100万行生产级代码,全程无人工直接编写 [4][13] AI工程化范式演进路径 - **Prompt Engineering(提示词工程)**:聚焦于通过优化单次指令(如添加身份设定、场景约束)来引导模型精准理解任务,本质是意图对齐,以降低输出不确定性 [6][16][17] - **Context Engineering(上下文工程)**:随着任务复杂度提升,工程化重心转向高效管理模型的短期与长期记忆,通过检索增强、信息压缩等技术,以最优信息填充有限的上下文窗口 [6][20] - **Harness Engineering(驾驭工程)**:当模型智力达到临界值后,挑战转向如何构建能让AI在长周期、多步骤任务中持续受控运行的系统,它包含了前两阶段能力,并引入了工具调用、多Agent调度、物理边界设定、质量管理和全链路反馈闭环 [6][20] 对AI产业格局的影响 - **重塑Agent能力边界**:智能体(Agent)的能力边界将由模型智能与Harness共同决定,Harness成为其工程化落地的关键基础设施 [7][20] - **驱动产业链变革**:头部大模型厂商正加速向Harness层延伸布局,从提供单一API接口转向覆盖工作流编排的系统化产品形态 [7][9][31] - **创造垂直领域机会**:在垂直细分场景中,围绕企业级工作流、上下文管理、权限管控与结果校验构建的Harness能力具备持续价值,这为深耕垂直领域的B端软件厂商提供了重要的转型方向 [7][21][31] 市场与行业回顾 - **指数表现**:本周(报告期内)申万计算机指数下滑6.17%,在申万一级行业中排名第6位 [11][22] - **个股表现**:本周计算机行业涨幅前十的个股包括宇瞳光学、中安科、行云科技、浪潮信息、卡莱特、四方精创、君逸数码、思特奇、同有科技、宏景科技 [11][24][28] - **行业估值**:截至4月10日收盘,以PE-TTM(整体法,剔除负值)统计,申万计算机行业总体市盈率为53.2 [11][29] 投资建议与核心受益方向 - **核心受益方向一:国产大模型厂商**:头部厂商正加速向Harness层延伸,由单一API供给升级为覆盖工作流编排的系统化产品体系 [9][31] - **核心受益方向二:垂直领域企业端AI软件应用厂商**:依托深厚行业知识,构建围绕企业级工作流、上下文管理、权限管控及结果校验的Harness能力,将具备持续核心价值 [9][31]
红杉专访 OpenAI Codex 团队:AI Coding 的未来,应该是异步自主 Agent
Founder Park· 2025-06-11 22:40
产品定位与技术特点 - Codex Agent是OpenAI推出的全新编程模型codex-1,能够并行处理多个任务并独立完成编程全流程,目标是从代码补全升级为任务委托[1][3] - 该产品采用异步工作模式,开发者在云端部署独立环境,Agent可运行长达30分钟完成复杂任务并交付完整方案[9][12][34] - 模型基于o3架构但通过强化学习微调,重点提升工程实践能力如代码风格、PR描述、测试验证等专业软件工程师技能[14][15][27] 技术实现与训练方法 - 训练环境采用容器化技术确保生产与训练环境完全一致,解决现实代码库缺乏标准测试框架和文档的难题[28] - 微调方向从竞赛编程能力转向工程实践能力,使模型具备专业开发者"品味和偏好"[14][15] - 模型具备自我验证能力,可输出终端命令和测试结果供开发者审查,引用自身工作成果便于验证[21] 行业影响与发展趋势 - 将改变开发者工作模式,从实际编码转向审查/验证/规划,顶尖用户每天可完成10+个PR[26] - 预计大幅增加专业开发者数量而非减少,因降低开发门槛将催生更多个性化软件需求[25][26] - 未来编程交互可能融合TikTok式异步体验与IDE工具,形成混合工作模式[50][51] 产品演进路线 - 当前版本是研究预览版,最终形态将整合到ChatGPT作为统一助手,同时保留专业工具定制界面[39] - 长期愿景是单一通用助手按需调用专用工具,而非多个独立智能体[12][48] - 正在探索任务粒度划分,通过"提问模式"让Agent自主制定执行计划提高效率[30][31] 市场竞争优势 - 差异化在于专注通用场景而非垂直领域,可整合Operator/DeepResearch等其他Agent能力[47][48] - 核心优势是模型获取外部上下文信息的能力,能更好理解需求并转化为代码实现[47] - 交互方式将覆盖开发者全场景包括CLI/IDE/Slack等,实现"无处不在的队友"[38][49]
红杉专访 OpenAI Codex 团队:AI Coding 的未来,应该是异步自主 Agent
Founder Park· 2025-06-11 22:39
产品定位与核心功能 - Codex Agent 是 OpenAI 推出的全新编程模型 codex-1,能够并行处理多个任务并独立完成编程全流程,目标是从「代码补全」升级为「任务委托」的助手 [1] - 产品核心理念是让 AI 在云端独立环境异步完成任务并交付完整方案,而非仅提供实时代码补全 [6] - 模型与 o3 同源但通过强化学习微调,重点解决从「优秀程序员」到「优秀软件工程师」的转变,学习专业开发者的工程实践品味和偏好 [6][14][27] 技术实现与创新 - 采用容器化环境统一训练和生产环境,解决现实代码库缺乏一致测试框架和文档标准的难题 [6][28] - 模型支持长时间任务执行(最长30分钟),具备制定计划、引用工作成果和输出验证信息的能力 [29][34][37] - 训练重点包括 PR 描述规范、代码风格一致性、测试验证等工程实践细节,相当于为模型补足「三年工作经验」 [15][27] 行业影响与未来趋势 - AI 编程将大幅降低开发门槛,预计专业软件开发者数量增加而非减少,催生更多个性化软件需求 [6][25][26] - 开发者角色将从编码转向审查、验证和高层规划,顶尖用户每天可通过 Codex 完成超10个 PR [21][26] - 2025年可能成为「Agent 之年」,编程交互方式将融合同步与异步体验,界面可能类似 TikTok 信息流 [54][49][52] 产品生态与战略 - OpenAI 愿景是未来仅保留通用助手 ChatGPT,通过接入专用工具实现多功能,而非构建独立智能体 [6][39][48] - Codex CLI 作为终端环境中的协同工具,与云端独立工作的 Codex Agent 形成互补 [13][38] - 竞争优势在于模型泛化能力,可结合 Operator、Deep Research 等其他 Agent 获取外部上下文信息 [47][48] 用户体验优化 - 采用「富足心态」使用模式更高效,建议并行运行多个任务并接受多次尝试 [6][19] - 修复 Bug 是典型优势场景,能自主验证问题并提供可行方案 [17][18] - 任务粒度设计是关键挑战,建议先通过「提问模式」生成高级计划再细化执行 [30][31]
国产AI编程工具加速“上新”,阿里云内部AI辅助代码生成比例近40%
第一财经· 2025-05-30 23:08
行业竞争态势 - 国内外AI编程赛道竞争激烈 字节可能禁用Cursor等第三方工具 推自研Trae作为替代 [1] - 阿里云对内部AI编程工具持开放态度 通义灵码内部覆盖率极高 AI辅助代码生成比例达40% 较半年前提升50% [1] - 中美AI编程产品差距缩小 国产工具在数据安全 隐私保护 性价比 本地化服务等方面具优势 [1] 产品技术进展 - OpenAI推出Codex Agent编程模式 微软开源GitHub Copilot项目 Anthropic发布Claude 4系列混合推理模型 [2] - 阿里云发布首个AI原生开发环境工具通义灵码AIIDE 新增编程智能体功能 深度适配千问3大模型 支持MCP协议 [2] - 通义灵码AIIDE集成插件能力 具备编程智能体 行间建议预测 行间会话等功能 可辅助写代码 修BUG 完成复杂编程任务 [2] 市场应用情况 - 通义灵码插件下载量超1500万 累计生成超30亿行代码 一汽集团 蔚来汽车 中华财险等上万家企业已接入 [2] - 开发者采纳代码行数每月增速达20%-30% [2] - AI编程工具付费用户渗透率约10%-20% 市场增长空间大 平均提效水平在10%-30%之间 [4] 未来发展趋势 - 行业将从人机协同式编程逐步演进到全自动化自主编程 阿里云将IDE产品作为未来开发者入口 迭代新一代人机交互产品 [3] - 模型发展迅速 预计6个月后AI编程渗透率或达50%-60% 1年后可能提升至80% [4]
国产AI编程工具加速“上新”,阿里云内部AI辅助代码生成比例近40%
第一财经· 2025-05-30 20:34
行业竞争态势 - 国内外AI编程赛道竞争加剧 字节可能禁用Cursor等第三方工具 推自研Trae替代但未官方回应 [1] - 阿里云对内部AI编程工具持开放态度 员工可自由选择工具 前提是数据安全合规 [1] - 中美AI编程产品差距缩小 国产工具在数据安全 隐私保护 性价比 本地化服务等方面具优势 [2] 产品技术进展 - 通义灵码AIIDE新增编程智能体 深度适配千问3大模型 支持MCP协议 集成插件能力 [2] - 通义灵码AIIDE功能包括编程智能体 行间建议预测 行间会话 辅助写代码/修BUG 自主决策等 [2][3] - 功能模块涵盖智能编辑器 工程级变更 智能问答 文件编辑 终端命令执行等8大类别 [3] 市场表现数据 - 通义灵码内部AI辅助代码生成比例达40% 较半年前提升50% [1] - 插件下载量超1500万 累计生成30亿行代码 服务上万家企业包括一汽 蔚来 中华财险等 [5] - 开发者采纳代码行数月增速20%-30% 付费用户渗透率10%-20% 市场增长空间大 [5][6] 行业发展趋势 - 行业将从人机协同编程向全自动自主化编程演进 带来人机交互重大变革 [5] - 阿里云视IDE为未来开发者入口 计划迭代新一代人机交互产品 [5] - 当前AI编程平均提效水平10%-30% 预计6个月后达50%-60% 1年后或突破80% [6]
微软、谷歌下场围剿Cursor ,AI编程格局生变 | 企服国际观察
钛媒体APP· 2025-05-26 14:12
AI编程领域竞争格局 - AI编程领域进入混战模式,OpenAI、微软、谷歌、Anthropic等大厂纷纷推出新工具和模型,如Codex Agent、GitHub Copilot Extension、Jules、Claude Opus 4等 [2] - 大厂布局AI编程旨在补强云服务生态黏性,同时探索大模型商业化路径 [2] - 创业企业如Cursor、Windsurf面临大厂降维打击,需在他人规则下寻找生存空间 [2] 微软的AI编程战略 - 微软开源GitHub Copilot Extension for VS Code,计划将AI功能直接引入VS Code开源存储库,开发者未来无需插件即可使用Copilot功能 [3] - 微软此举可能意在对抗Cursor等竞争对手,Cursor通过魔改VS Code获得大量用户,对微软开源生态构成挑战 [3] - 微软可能通过修改VS Code插件许可协议限制竞争对手,构建自身生态圈 [4] 谷歌的AI编程布局 - 谷歌推出AI编程Agent工具Jules,基于Gemini 2.5 Pro大模型优化编码能力,支持复杂任务分解、单元测试验证等全流程开发 [6] - Jules采用"异步任务"编码模式,与Cursor等工具的"实时协作"形成差异化 [6] - 谷歌还推出Gemini Code Assist免费服务和Firebase Studio开发环境,但尚未推出重量级AI编程产品 [4] 异步与混合Agent模式 - 微软Copilot Agent和谷歌Jules均支持"异步任务"模式,开发者可分配复杂任务由Agent独立处理 [6][7] - 谷歌采用"混合Agent"方法,多个专业Agent协同工作并互相检查,不同于微软的单个Agent模式 [8] - OpenAI认为异步多Agent将成为生产高质量软件的默认方式,计划构建同时支持实时和异步的工具 [9] 大模型厂商的参与 - OpenAI的Codex已从编程模型发展为能在沙箱中编写代码、修复错误的编程助手 [10] - Anthropic推出Claude Opus 4和Claude Sonnet 4,优化编程能力,并发布AI编程助手Claude Code [11] - Anthropic停止投资聊天机器人,转向提升Claude执行复杂任务和编写整个代码库的能力 [11] AI编程产品发展阶段 - 第一阶段:预测文本,简单代码补全 [13] - 第二阶段:聊天,编码任务的人工智能辅助对话 [13] - 第三阶段:协作"氛围编码",广泛协调的代码更改 [13] - 第四阶段:Agent代理模式,AI自主运行并可能无监督改变 [13] 创业企业的应对 - Cursor开发商推出自研Cursor-Fast,代码生成能力介于GPT-3.5与GPT-4之间 [13] - 创业企业面临模型能力决定竞争力的局面,最终可能只能选择一两个优质大模型作为基础 [13]