Codex CLI

搜索文档
18天光速打脸!OpenAI刚夸TypeScript最合适,转头就用Rust重写Codex CLI
AI前线· 2025-06-07 12:41
OpenAI推出Codex编码工具 - OpenAI正式推出AI编码工具Codex 目前向ChatGPT Plus用户开放 在需求高峰期间可能对Plus用户设置速率限制[1] - Codex可在任务执行过程中访问互联网 支持安装依赖项 运行测试 升级软件包等功能 该功能向ChatGPT Plus/Pro/Team用户开放 日常默认关闭[3] - Codex既可在ChatGPT网页浏览器中运行 也能通过Codex CLI在本地运行 支持交互式和非交互式两种模式[6] Codex CLI技术特性 - Codex CLI专为习惯使用终端的开发者设计 支持版本控制 理解并执行代码仓库 是"聊天驱动型开发工具"[6] - Codex CLI在GitHub开源 已获27.9k Star 当前代码占比最高的是Rust语言[7] - Codex CLI具有零配置启动 全自动审批机制 多模态交互等特性[10] Rust重写Codex CLI - OpenAI用Rust重写Codex CLI 目标是提升性能和安全性 避免对Node.js的依赖[3] - Rust重写带来四个关键改进:零依赖安装 沙箱化 性能优化 支持MCP协议[20] - 基于Rust的Codex CLI仍可通过JavaScript Python等语言扩展 目前并行开发TypeScript和Rust版本[17] Rust语言行业趋势 - Rust作为系统级语言比Node.js更高效 但开发难度更高[19] - 近期行业出现Rust重写浪潮 Vue.js创始人用Rust实现的Rolldown使生产构建时间减少3-16倍[21] - AI编码工具Zed用60万行Rust代码重构 声称成为"最快AI代码编辑器"[23] 团队背景 - Codex CLI项目维护者Fouad Matin加入OpenAI约一年 此前创立三家科技公司 并在Segment领导产品和工程开发[9] - Matin曾表示TypeScript是最适合UI的语言 但后来转向Rust重写以实现更高效率[12][14]
不到 2 个月,OpenAI 火速用 Rust 重写 AI 编程工具。尤雨溪也觉得 Rust 香!
程序员的那些事· 2025-06-06 08:32
OpenAI 用 Rust 重写 Codex CLI - OpenAI 已用 Rust 语言重写其 AI 命令行编程工具 Codex CLI,目的是提升性能、安全性并避免对 Node.js 的依赖 [1] - Codex 是一款实验性编程代理工具,可在 ChatGPT 网页浏览器环境或本地通过 CLI 运行,支持交互式和非交互式模式 [1] - 2025 年 4 月 17 日 Codex CLI 在 GitHub 上开源,支持 macOS、Linux 和 Windows 系统 [1] - 原版本基于 TypeScript 和 Node.js,现已用 Rust 完成重写,但 TypeScript 版本仍会维护至 Rust 版本功能对等 [1] 选择 Rust 重写的原因 - 零依赖安装:原版本要求 Node.js 22 及以上,可能成为用户门槛 [2][4] - 沙盒化需求:macOS 使用 Apple Seatbelt,Linux 默认不启用沙盒,Rust 版本实现了 macOS 的 sandbox-exec 和 Linux 的 Landlock 沙盒机制 [4] - 性能优化:Rust 无垃圾回收机制,内存需求更低 [5] - 可复用现有 Rust 版 MCP 实现:Codex CLI 将同时具备 MCP 客户端和服务器功能 [5] - 截至 6 月 6 日,Rust 在项目中占比 46.7%,超过 TypeScript 的 44.7% [5] 行业对 Rust 的认可 - Vue 创作者尤雨溪推出基于 Rust 的 Rolldown-Vite,替代原 Rollup.js 打包工具 [6] - 采用 Rust 后生产构建时间缩短 3 到 16 倍,内存使用量最多减少 100 倍 [6]
18天光速打脸,OpenAI刚夸TypeScript最合适,转头就用Rust重写Codex CLI
36氪· 2025-06-04 19:34
OpenAI推出Codex编码工具 - OpenAI正式推出AI编码工具Codex,目前向ChatGPT Plus用户开放,在高峰时段可能设置速率限制以确保广泛可用 [1] - Codex新增互联网访问功能,支持安装依赖项、运行测试、升级软件包等,该功能向ChatGPT Plus/Pro/Team用户开放,未来将支持企业版 [2] - 公司CEO Sam Altman曾预测,到今年年底AI模型将超越初级软件工程师 [2] Codex CLI技术升级 - Codex CLI工具用Rust语言重写,旨在提升性能、安全性并消除对Node.js的依赖 [2][9] - Rust版本改进包括:零依赖安装、沙箱化增强、内存需求降低、支持MCP协议 [12] - 项目在GitHub开源,获27.9k Star,代码库中Rust占比最高 [4][9] 开发者体验与功能 - Codex支持聊天驱动开发,可在ChatGPT网页或本地CLI运行,提供交互式和静默模式 [3] - 工具具备零配置启动、自动审批机制、多模态交互(支持截图/图表上传)等特性 [3] - 当前仍并行开发TypeScript版本,未来允许通过JavaScript/Python等语言扩展 [13] 行业技术趋势 - Rust重写浪潮兴起,Vue.js创始人用Rust工具Rolldown替换Rollup.js,构建时间减少3-16倍 [14] - 马斯克的XChat、AI编辑器Zed等均采用Rust重构,后者宣称成为"最快AI代码编辑器" [14][16] - Rust在系统级效率优势明显,但开发难度高于TypeScript/JavaScript [14] 团队背景 - Codex CLI主导者Fouad Matin入职OpenAI约一年,此前为AI安全公司Indent联合创始人 [5][7] - Matin曾解释选择TypeScript因熟悉度,后转向Rust以实现更高性能目标 [7][9]
速递|OpenAI推出AI编程Codex,可多任务并行测试至代码通过
Z Potentials· 2025-05-18 11:43
OpenAI推出AI编程助手Codex - 公司推出由codex-1驱动的最强AI编程工具Codex研究预览版 该模型生成的代码比o3更清晰 精准遵循指令 并能迭代运行测试直至通过[1] - Codex运行在云端沙盒环境 可连接GitHub预加载代码库 处理简单功能编写 漏洞修复 代码库问答等任务耗时1-30分钟 且不限制用户访问本地设备[1] - 工具初期面向ChatGPT Pro 企业版及团队版用户开放 未来将扩展至Plus和教育版 公司计划实施速率限制 用户可通过购买额外积分突破限制[3][4] 行业竞争格局 - AI编程工具市场快速增长 谷歌和微软CEO透露其30%代码由AI生成 Anthropic和谷歌近期分别推出Claude Code和Gemini Code Assist[5] - 头部AI编程平台Cursor年化营收达3亿美元 估值90亿美元 公司正以30亿美元收购竞品Windsurf 强化工具链布局[5] 产品功能与定价 - 用户可通过ChatGPT侧边栏调用Codex 使用"Code"按钮分配任务 "Ask"按钮获取代码解答 并实时跟踪进度[5] - 同步更新Codex CLI终端工具 搭载o4-mini模型 API定价为输入token每百万1.5美元 输出token每百万6美元[9] 技术特性与局限性 - Codex采用物理隔离设计 无法访问外部网络 内置安全措施可阻止恶意软件生成 但可能影响实用性[8] - 与同类生成式AI类似 Codex存在错误率问题 研究显示领先模型在可靠调试方面仍有缺陷[8] 战略布局 - 公司将Codex定位为"虚拟队友" 目标替代工程师需数小时至数天的任务 内部已用于重复性工作 功能框架搭建等[6] - 此次发布是ChatGPT功能扩展的最新举措 此前已新增Sora视频平台 Deep Research代理等订阅福利[9]
「ChatGPT+GitHub」,OpenAI搞了个大联合
机器之心· 2025-05-09 12:19
ChatGPT与GitHub深度整合 - ChatGPT新增直接连接GitHub功能,支持通过"Deep Research → GitHub"路径访问代码库进行深度分析[2] - 功能可自动搜索源代码和PR记录,生成带引用的详细报告,开发者可针对代码库和技术文档提问[3][4] - 支持总结代码结构、识别编码模式,并提供真实代码示例指导API实现[4] 功能开放计划 - 首批向ChatGPT Plus/Pro/Team用户开放,企业版和教育版支持将后续推出[4] - 隐私保护机制确保仅能访问用户已授权或主动共享的代码库内容[5] OpenAI编程生态布局 - 近期连续推出Codex CLI开源终端工具、升级桌面应用支持多开发软件代码读取[5] - 计划斥资约30亿美元收购AI编程助手公司Windsurf,强化编程场景能力[5] 模型优化进展 - 开放o4-mini推理模型的强化微调功能,仅限已验证组织使用[5][6] - 同步开放GPT-4.1 nano模型的微调功能,所有付费开发者均可定制训练[5][6]
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 20:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]
Anthropic 下架逆向工程者代码,网友开始称赞OpenAI开放
AI前线· 2025-04-27 12:28
品牌危机与许可争议 - Claude Code因对逆向工程开发者发出下架通知引发品牌危机 其使用许可比OpenAI的Codex CLI更严格 后者遵循Apache 2 0许可证允许商业使用 而Claude Code限制未经许可的修改 [2][3] - Anthropic对Claude Code源代码进行混淆处理 并在开发者发布去混淆代码后提交DMCA投诉要求删除 [4] - 开发者批评Anthropic态度不如OpenAI开放 认为其做法令人厌烦 [6] 产品功能与战略定位 - Claude Code定位为"代理式编码工具" 可直接在终端运行 功能包括修复代码库bug 解决合并冲突 创建提交和拉取请求 回答架构逻辑问题 [8] - 公司采取稳健实施方案 先在内部使用数月验证效果 产品工程师反馈积极 认为虽不能完全取代IDE但在多数场景下具有显著助益 [9][10] - 研究工程师透露过去几个月半数代码由Claude Code编写 第三方开发者案例显示其优化HVM3运行时在苹果M4单核实现51%速度提升 并能生成专用CUDA版本 [11][12] 市场表现与用户评价 - 开发人员报告Claude Code执行速度极快 完成任务时间与日常家务相当 有案例显示其可一次性创建完整UI设计系统包含所有必要组件 [13][14] - 与竞品Cursor对比中 Claude Code被用户认为表现更优 错误率更低 但两者均基于Claude-3 7基座模型的巨大差异令人惊讶 [17] - Cursor作为AI编码领域先行者 2024年增长率达9000% 年度经常性收入1亿美元 成为史上增长最快SaaS产品 [15][16] 成本与行业定价 - Claude Code定价高昂 Claude 3 7 Sonnet模型每百万输入/输出token分别收费3美元和15美元 单日使用成本可达28美元 与雇佣开发人员成本相当 [19][20][21] - 行业横向对比显示 AI编码智能体普遍昂贵 如Devin企业月费500美元 Claude Code成本与之持平 但性能优势获得部分开发者认可 [22] 技术局限与系统问题 - Ubuntu Server 24 02系统运行自动更新命令会导致文件所有权混乱 引发管理员权限锁定问题 公司已提供缓解方案 [25] - 开发者指出AI编码工具仍存在生成冗余代码 无法审查等问题 单次任务花费55美元但实际工程效用有限 软件开发的瓶颈并非纯代码编写 [26][27] 行业动态与竞品技术 - 竞品Cursor系统提示词在Github获近2 5万星 官方通过心理暗示强化AI编程能力 [30] - 行业关注点转向多智能体 多模态技术 模型价格持续下探 头部企业重点布局应用层创新 [30]
o3深度解读:OpenAI终于发力,agent产品危险了吗?
虎嗅· 2025-04-25 22:21
文章核心观点 - 文章着重解读OpenAI新发布的o3、o4 - mini等模型及开源的Codex CLI,分析其特点、能力、应用机会、可靠性、定价等方面,还探讨了RL Scaling方向及相关论文观点 [1][3][59] 各部分总结 o3和o4 - mini模型特点 - o3是最先进推理模型,有全面推理能力、丰富tool use方式和全新多模态CoT能力;o4 - mini是为高效推理优化的小模型,在部分benchmark表现不错,思考时间更短 [3][4] - 两个模型在agentic和multimodal能力上完整性出色,可实现agentic浏览网络、多次迭代搜索信息,付费用户可体验o3、o4 - mini和o4 - mini - high,o1、o3 - mini和o3 - mini - high已下架 [5] o3让ChatGPT进化 - Agentic能力是o3与之前o系列模型最大区别,工作方式和效果接近Deep Research,tool use体验无缝,突破原本o系列模型能力约束 [7][9] - 测试显示,o3在完成特定任务上有表现,虽首次执行部分任务有不足,但经提示可完成,且在部分任务结果呈现上比Manus更简洁、重点突出 [10][11][18] 多模态CoT解锁应用机会 - o3和o4 - mini首次将图像融入CoT,能“看懂”图像、用图像思考,在多模态理解benchmarks中领先,在事实可靠性任务中可用性增强 [41] - 测试表明,o3能对模糊图片进行处理和推理,识别剧中人物和图片拍摄地点 [44][46] o3可靠性提升 - o3在实现困难任务时比o1少犯20%重大错误,能意识到自身无法解决的问题,减少模型幻觉,增加可靠性 [56] OpenAI开源Codex CLI - 开源的Codex CLI是轻量级coding agent,可在本地电脑运行,支持多模态推理,目的是将AI模型与用户计算机无缝连接,普及竞争对手已有产品以占领市场 [59][62] - 具有多模态推理和与本地代码环境集成两个重要特性,为开发者与AI交互开辟新可能,融入开发者工作流程 [63] 负面评价 - 用户负面评价集中在视觉推理能力不稳定和AI Coding能力不强两方面 [64] 定价情况 - o3比其他一线模型贵,Claude 3.7、Grok 3、Gemini 2.5 pro效果在同一水平,Claude 3.7定价相对较贵,Grok 3对标Claude 3.7 Sonnet定价,Gemini 2.5价格最低 [72] - o4 - mini定价是o3的1/10,比Claude 3.7便宜,gpt - 4.1性价比不高,但利用好gpt - 4.1 - mini或o4 - mini性价比高,几家模型定价在同一水平竞争,Gemini和OpenAI相对便宜 [73][74] RL Scaling及Era of Experience - o3开发中发现large - scale RL规律,OpenAI通过RL训练o3和o4 - mini,在o3 RL training和inference time scaling投入算力比o1高一个数量级 [76][78] - Richard Sutton和David Silver发布文章强调新一代agent需从experience中学习达到superhuman水平,RL重要性将提升,还论述了奖励和规划推理相关观点 [81][82]
OpenAI“Agent万能论”遭打脸!LangChain创始人:Deep Search恰恰证明Workflows不可取代
AI前线· 2025-04-25 21:48
AI领域现状与OpenAI指南争议 - AI领域呈现"追星式"热情,新技术发布即引发高度关注与评价波动[2] - OpenAI发布的34页《A Practical guide to building AI agents》指南被业界誉为"最优秀资源",涵盖Agent定义、应用场景识别、设计框架等关键方面[5] - LangChain创始人Harrison Chase强烈批评该指南"具有误导性",指出其采用僵化的"二元对立"定义方式,而实际系统应为Workflows与Agents的有机结合[6][8] Agent与Workflows路线之争 - 核心争议在于"大模型直接掌控"还是"人工编写代码"模式,传统精细流程易因模型更新而失效[9][10] - GPT-2开发者案例显示:早期需手写大量补偿代码,随着模型能力提升又被迫删除冗余代码,形成反复适应循环[11] - 传统软件依赖确定性静态代码,而现代系统引入模糊计算,应用行为由动态进化模型驱动[12][13] - 大模型进步速度超预期(如OpenAI Deep Research项目),使自主推理系统优势凸显[14][15] Agent框架技术解析 - Anthropic定义Agent为动态推理系统,与静态Workflows形成对比:前者自主决策工具使用,后者依赖预设代码路径[19] - 可靠Agent构建面临性能质量挑战,61%开发者认为这是生产落地最大障碍[22] - 常见失败原因包括:System Message不完整(占32%)、用户输入模糊(28%)、工具描述不清(19%)[24] - 混合模式(Workflows+Agents)被证明更可靠,如LangGraph框架支持双向切换,实现高上限与低门槛平衡[25][27] 框架选择与行业实践 - Agent封装存在控制风险,早期LangChain等框架因过度封装导致LLM输入输出失控[29] - 多Agent系统依赖高效通信机制,但最佳实践往往通过Workflows实现[30][31] - OpenAI Deep Research项目证明:特定任务训练的模型仅需简单Agent循环,但该模式对初创公司不现实[36] - 生产级系统普遍采用混合架构,Claude code等案例显示数据与任务匹配度决定Agent有效性[37][38] OpenAI指南的技术缺陷 - 错误二分法:混淆声明式/非声明式与框架必要性,实际LangGraph已实现声明式Agent逻辑表达[40][41] - 低估学习成本:Agents SDK封装反而增加上下文传递难度,学习曲线陡峭度超LangGraph 30%[43] - 灵活性误导:Agents SDK功能仅为LangGraph的10%,后者提供更强大的底层编排能力[44] - 未解决核心挑战:缺乏对生产级系统透明编排层、上下文精确控制等关键需求的认知[39]
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
海外独角兽· 2025-04-25 19:52
OpenAI新模型发布 - OpenAI发布o3和o4-mini模型,其中o3是目前最先进的推理模型,具有全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [5] - o4-mini是专为高效推理优化的小模型,在某些benchmark上表现优于o3,但实际使用中思考时间明显更短 [5] - 两个模型实现了agentic浏览网络、Python代码执行与可视化、图片推理与增强、文件读取等能力 [5] - 模型定价方面,o3比其他一线模型更贵,o4-mini定价是o3的1/10 [59][60] Agent能力突破 - o3的agentic能力接近理想agent,任务完成方式与Deep Research类似,能在3分钟内给出不错结果 [6] - o3的tool use体验无缝,比Devin、Manus等产品更快更自然,思考推理过程更长不截断 [6] - 测试显示o3能完成YC官网企业信息整理和Amazon销售数据分析等复杂任务,表现优于Manus [7][8][11][12] - 用户案例显示o3能自主定位Youtube视频内容并进行分析搜索,类似完整agent的工作方式 [28] 多模态能力进展 - o3和o4-mini首次实现将图像直接融入CoT,能"看懂"图像并用图像思考,在多模态理解benchmark领先 [33] - 测试显示模型能处理模糊、反转或低质量图像,理解内容并进行裁剪、旋转等操作 [34] - 模型通过地貌、文字等线索成功识别埃及尼罗河和马来西亚婆罗洲等地理位置 [37][39] - 但视觉推理能力仍不稳定,在数手指、判断时钟时间等任务上存在系统性错误 [53][55][56] 技术路线与商业化 - agent产品分化为两类技术路线:OpenAI的黑盒端到端训练和Manus的白盒工作流外置 [4][6] - OpenAI将agent产品作为未来商业化收入重点,可能覆盖通用agent产品市场 [3] - 开源Codex CLI旨在普及竞品功能,具有多模态推理和本地代码环境集成两大特性 [47][51] - RL Scaling依然有效,算力投入与性能提升成正比,o3比o1表现更好 [61][62] 强化学习发展方向 - RL教父提出"体验时代"概念,强调agent需从自主经验中学习达到超人类水平 [65][68] - 未来agent将形成长期连续experience stream,能自我修正实现长期目标 [68] - 需转向基于真实环境信号的奖励机制,如健康数据、考试成绩等 [70] - agent可能发展出非人类思维方式,结合世界模型实现更有效规划 [71]