编程智能体
搜索文档
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
量子位· 2026-03-14 11:51
CursorBench基准的发布与设计理念 - 编程智能体时代,顶流AI代码编辑器Cursor发布新的评测基准CursorBench,专门评价不同模型在Cursor中作为“智能体”高效执行复杂任务的能力[1] - CursorBench的出现填补了现有基准的空白,其核心区别在于:SWE-Bench等基准衡量程序能否解决问题,而CursorBench衡量的是程序能否在**真实的token约束下高效地**解决问题[3][6] - 行业评价AI的标准正转向“执行能力”,且强调“高效执行”[5] 现有基准测试的三大核心问题 - **任务类型不真实**:现有基准(如SWE-Bench修复GitHub issue,Terminal-Bench的谜题式任务)与开发者要求智能体完成的日常编程工作(如修改多个文件、分析生产日志)不契合[12][13][14][15] - **评分机制不合理**:许多基准假设一个问题只有一个正确答案,但现实中一个需求有多种实现方式,导致要么误判正确方案,要么为评估而人为消除模糊性,无法反映真实情况[16][17][18][19] - **数据污染问题**:基准公开时间过长后,后续模型可能直接抓取基准数据训练,导致评测结果价值存疑[20][21] CursorBench的“线上+线下混合评”方案 - **线下评测(CursorBench)**:让不同模型完成同一批标准任务,系统从正确性、代码质量、效率、交互行为等维度打分,得出离线benchmark分数,具有可重复测试、成本可控等优点[22][23][24] - **线上评测**:通过A/B Test观察真实用户使用不同模型后的效果,主要追踪开发者是否接受AI生成的代码、是否继续追问、是否撤销修改、任务是否真正完成等产品指标[40][41][42] - 线上线下形成互补与良性循环:线下快速筛选模型能力,线上验证真实效果,发现偏差后再调整基准或模型[43] CursorBench任务设计的三大独特维度 - **任务真**:任务来源真实,来自Cursor平台自身,利用Cursor Blame工具追踪开发者请求与模型最终提交的代码对,构成出题范本;许多任务来自内部代码库和受控来源,降低了模型训练阶段见过的风险,基准会每隔几个月更新以跟踪开发者使用方式的变化[26][27][28][29] - **任务规模大**:由于用户基数大,CursorBench任务规模明显更大,例如在正确性评估中,从初始版本到CursorBench-3,代码行数和平均文件数大致翻了一倍,反映了纳入更具挑战性任务(如处理monorepo多工作区、排查生产日志、执行长时间实验)的方式[30][31] - **任务描述刻意保持“模糊”**:与公开基准中详细的任务描述不同,CursorBench的任务描述模棱两可,以更符合现实中开发者与AI对话的真实场景[34][35] 模型在CursorBench上的表现与基准价值 - **模型表现差异显著**:Claude Haiku 4.5分数从73.3降至29.4,Claude Sonnet 4.5分数从77.2降至37.9,表明在新基准上表现大幅下滑[8];Claude Sonnet 4.5的“性价比”被认为较低,而Cursor自研的Composer模型表现引人注目[47][48] - **区分度更高**:CursorBench在前沿模型之间的区分度明显更高,在任务规模更大、环境更复杂的基准上,模型实力差距被放大,得分呈阶梯式分布,而非像SWE-Bench那样挤在一起[49] - **与真实用户体验一致**:通过线上实验验证,CursorBench的模型排名与线上产品指标(如代码接受率)的变化方向基本一致,表明其排名更能反映真实使用效果[51][52] 行业趋势与未来规划 - CursorBench是编程智能体时代真正以“真实开发场景”为原点设计的基准测试[38] - 行业预计未来一年绝大多数开发工作将转向由在各自计算机上独立运行的**长时运行智能体**来完成,因此公司正规划对CursorBench作出相应调整,瞄准运行时间更长的智能体[54]
MINIMAX-WP:M2.5 对标 Claude Opus 4.6,Agent 原生设计重新定义编程智能体-20260228
东吴证券· 2026-02-28 15:25
投资评级与核心观点 - **投资评级**:买入(首次)[1] - **核心观点**:报告认为,MiniMax-WP 发布的 M2.5 模型是全球首个为智能体(Agent)场景原生设计的生产级旗舰模型,凭借“编程 + 智能体”双轮驱动路径及小参数高能效的成本优势,有望加速全球渗透,因此首次覆盖并给予“买入”评级 [8] 公司产品与市场地位 - **产品发布与定位**:MiniMax 于2026年2月13日发布 M2.5 模型,该模型被定位为全球首个为智能体(Agent)场景原生设计的生产级旗舰模型,标志着其从聊天工具向智能体演进 [8] - **技术能力对标**:M2.5 的编程能力直接对标 Claude Opus 4.6,在编程与智能体维度比肩国际顶尖模型,支持全栈编程开发 [8] - **市场表现数据**:根据 OpenRouter 最新周度数据,平台前十模型总 token 调用量约 8.7 万亿,其中中国模型占 5.3 万亿(占比 61%),当周 token 调用量前三均为国产大模型,MiniMax M2.5 以 2.45 万亿 token 空降榜首 [8] - **产品性能与成本优势**:M2.5 激活参数量仅 10B,是第一梯队旗舰模型中参数规模最小的,支持 100 TPS 超高吞吐量,在 SWE-Bench Verified 得分 80.2% 超越 Claude Opus 4.6,其输入价格 0.3 美元/百万 token、输出价格 1.1 美元/百万 token,分别为 Claude Opus 4.6 的 1/16.7 和 1/22.7 [8] - **应用场景优势**:M2.5 在 Excel 高阶处理、深度调研、PPT 等 Office 核心生产力场景中表现优秀,补足了国产模型在该场景的短板,并且 OpenRouter 官方确认 M2.5 带动了 100K 至 1M 长文本区间的增量调用需求,这是智能体工作流的典型消耗场景 [8] 财务预测与估值 - **收入预测**:预计 MiniMax 2025年至2027年营业总收入分别为 0.6988 亿美元、1.9404 亿美元、3.9810 亿美元,同比增速分别为 128.94%、177.68%、105.16% [1][8][9] - **盈利预测**:预计归母净利润 2025年至2027年分别为 -6.1652 亿美元、-4.2828 亿美元、-4.7652 亿美元,其中 2026年预计同比增长 30.53% [1][9] - **Non-IFRS 净利润预测**:预计 2025年至2027年分别为 -4.1307 亿美元、-4.2828 亿美元、-4.7652 亿美元 [1][9] - **每股收益预测**:预计最新摊薄 EPS 2025年至2027年分别为 -1.97 美元/股、-1.37 美元/股、-1.52 美元/股 [1][9] - **估值指标**:基于最新摊薄 EPS,报告预测 2025年至2027年市盈率(P/E)分别为 -51.34 倍、-73.90 倍、-66.42 倍 [1][9] 关键财务数据与比率 - **市场数据**:报告发布时收盘价为 763.50 港元,一年股价区间为 220.00 至 980.00 港元,港股流通市值为 1775.3877 亿港元 [5] - **基础数据**:每股净资产为 -75.89 港元,资产负债率为 215.00%,总股本为 3.1364 亿股 [6] - **盈利能力比率**:预计毛利率将从 2024年的 12.25% 提升至 2027年的 49.95%,销售净利率预计从 2024年的 -1524.22% 改善至 2027年的 -119.70% [9] - **投资回报比率**:预计 ROIC 从 2024年的 -84.20% 改善至 2027年的 -3.84%,预计 ROE 从 2024年的 58.20% 变化至 2027年的 -29.17% [9] - **增长比率**:收入增长率预计从 2024年的 782.17% 逐渐放缓至 2027年的 105.16%,净利润增长率预计在 2026年转正为 30.53% [9]
MINIMAX-WP(00100):M2.5对标ClaudeOpus4.6,Agent原生设计重新定义编程智能体
东吴证券· 2026-02-28 13:37
投资评级 - 首次覆盖,给予“买入”评级 [1][8] 核心观点 - M2.5模型为全球首个为智能体(Agent)场景原生设计的生产级旗舰模型,凭借“编程+智能体”双轮驱动路径及小参数高能效的成本优势,有望加速全球渗透 [8] - 报告预计MiniMax 2025-2027年收入分别为0.7/1.9/4.0亿美元 [8] 模型与产品分析 - M2.5激活参数量仅10B,是第一梯队旗舰模型中参数规模最小的一款,支持100 TPS超高吞吐量,显存占用和推理能效比优势显著 [8] - M2.5的Coding能力直接对标Claude Opus 4.6,在编程与Agentic维度比肩国际顶尖模型,支持PC、App、跨端应用的全栈编程开发 [8] - M2.5在Excel高阶处理、深度调研、PPT等Office核心生产力场景中表现优秀,补足了国产模型的短板 [8] - M2.5在SWE-Bench Verified得分80.2%,超越Claude Opus 4.6,在Multi-SWE-Bench多语言复杂环境中达到行业最优 [8] - M2.5输入价格0.3美元/百万token、输出价格1.1美元/百万token,分别为Claude Opus 4.6的1/16.7和1/22.7,具备显著成本优势 [8] - 根据OpenRouter最新周度数据,平台前十模型总token量约8.7万亿,其中中国模型独占5.3万亿,占比61% [8] - 当周token调用量前三均为国产大模型:MiniMax M2.5以2.45万亿token空降榜首,Kimi K2.5以1.21万亿紧随其后 [8] - M2.5发布后七天调用量即突破3.07T tokens,OpenRouter官方确认其带动了100K至1M长文本区间的增量调用需求 [8] 财务预测与估值 - 预计2025-2027年营业总收入分别为69.88百万美元、194.04百万美元、398.10百万美元,同比增速分别为128.94%、177.68%、105.16% [1][9] - 预计2025-2027年归母净利润分别为(616.52)百万美元、(428.28)百万美元、(476.52)百万美元 [1][9] - 预计2025-2027年Non-IFRS净利润分别为(413.07)百万美元、(428.28)百万美元、(476.52)百万美元 [1] - 预计2025-2027年毛利率分别为25.82%、40.78%、49.95% [9] - 基于最新摊薄EPS,预计2025-2027年P/E分别为(51.34)倍、(73.90)倍、(66.42)倍 [1] - 基于Non-IFRS净利润,预计2025-2027年P/E分别为(76.62)倍、(73.90)倍、(66.42)倍 [1] - 预计2025-2027年每股净资产分别为(4.51)美元、6.72美元、5.21美元 [9] - 预计2025-2027年P/B分别为(22.38)倍、15.01倍、19.37倍 [9] 市场与基础数据 - 收盘价为763.50港元 [5] - 一年股价最低/最高为220.00/980.00港元 [5] - 港股流通市值为177,538.77百万港元 [5] - 每股净资产为(75.89)港元 [6] - 资产负债率为215.00% [6] - 总股本为313.64百万股,流通股本为232.53百万股 [6]
红杉资本:2026将是AGI元年,编程智能体已经打响了第一枪!
华尔街见闻· 2026-01-19 19:41
文章核心观点 - 通用人工智能(AGI)已从概念变为现实,其功能性定义是“自行解决问题的能力”,2026年将是AGI元年 [1] - 以编程智能体为代表的长时程智能体已落地,标志着AI从“对话者”向能够实际交付工作的“执行者”转型 [1] - AI智能体的能力正以指数级速度增长,将彻底改变企业的人才结构、生产力边界以及商业和投资范式 [1][2][7] 功能性定义与核心特征 - AGI的功能性定义被界定为“自行解决问题的能力”,对于企业而言,AI能否完成任务比其实现方式更重要 [3] - 长时程智能体具备在模糊环境中通过建立假设、测试、试错并调整方向直至达成目标的核心能力 [4] - 智能体能够自主执行复杂任务闭环,例如在招聘场景中,可在31分钟内完成人类专家的心理循环,包括跨平台搜索、分析潜在离职信号并起草联系邮件 [3] 技术路径与能力增长 - 实现AGI跨越的两种有效且可扩展的技术路径是:由研究实验室主导的强化学习,以及在应用层通过设计特定脚手架来规避模型局限的代理架构 [5][6] - 智能体处理复杂任务的能力正以每7个月翻一番的速度呈指数级增长 [2] - 根据趋势推算,智能体在2028年将能可靠地完成人类专家需耗时一整天的工作,到2034年将能完成一整年的工作量 [6] - 最新的突破是迭代能力,即AI能够像人类一样在数小时内自主工作、修正错误并自主决定下一步行动 [5] 商业影响与范式转移 - 商业逻辑将发生根本性变化,从销售软件转向直接“销售工作成果”,未来的AI应用将作为“数字员工”或“同事”全天候并行工作 [1][7] - 创业者面临巨大范式转移,2026年及以后的应用将是“执行者”,这使得针对“结果”而非“工具”进行定价和包装成为可能 [7] - 从医药领域的OpenEvidence、法律领域的Harvey到网络安全领域的XBOW,各行各业的专用智能体正在迅速涌现 [7] - 曾经宏大的路线图(如交叉比对20万个临床试验数据或重构整个美国税法代码)因智能体能力的提升而变得切实可行 [7]
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
OpenAI最强编程模型登场,连续干活24小时,一次处理几百万token
36氪· 2025-11-20 16:24
模型发布与定位 - 公司发布新一代智能体编程模型GPT‑5.1‑Codex‑Max,该模型基于最新的推理模型打造,专门面向软件工程、研究、数学等复杂任务进行训练 [2] - 同时,公司将GPT-5 Pro升级为GPT-5.1 Pro,据称在写作、数据分析等方面能力更强 [2] - 该模型是公司训练的首个适用于在Windows环境里进行编程操作的模型 [3] 核心技术能力 - 模型能在单一任务中连贯处理上百万个token,跨多个上下文窗口运行,这得益于一项名为“压缩”的技术,可在接近上下文窗口限制时自动压缩上下文并保留重要信息 [2] - 模型能够独立工作数小时,在公司内部评估中甚至可针对同一任务连续工作24小时,持续迭代实现并修复测试失败 [3] - 在推理效率上,模型在中等推理强度下完成任务所使用的思考token比前代GPT‑5.1‑Codex少约30%,同时取得更高准确性,对于追求质量的任务还可开启超高强度推理 [5] 性能表现与成本效益 - 在打造一个完全运行在浏览器中的CartPole强化学习沙箱时,模型所使用的token数量为27k,而前代模型用量为37k [8] - 公司预计,token效率的提升可为开发者带来实际的成本节省 [5] - 与竞争对手相比,用户测试显示模型在创建SVG等任务中生成的元素包含更多细节且更逼真 [10] 应用案例与用户体验 - 模型已可用于CLI、IDE扩展、云端和代码审查,API访问也即将推出 [6] - 模型成功打造了多个网页应用,包括CartPole强化学习沙箱、太阳系重力模拟器以及帮助理解斯涅尔定律的光线折射模拟器 [6][8] - 用户体验反馈显示,模型相比GPT-5.1-Pro更勤快、速度更快,且展现出更强的主动性和规划能力,例如会“盯着问题看了5分钟”再决定处理 [12] 行业影响与未来展望 - 新一代编程模型正从简单的代码生成器转向能够持续工作、自动调试、主动规划的编程智能体,其长时推理、上下文压缩、自我修复等能力使其能独立完成项目级任务 [15] - 随着运行成本下降和安全沙箱强化,未来软件开发方式可能从“写代码”转向“描述需求+审核结果”,智能体有望承担更多实现与迭代工作 [15]
OpenAI发布GPT-5-Codex:独立编码7小时,能动态调整资源,token消耗更少
Founder Park· 2025-09-16 11:24
产品发布与定位 - OpenAI发布专用于编程任务的新模型GPT-5-Codex,属于GPT-5的特殊版本,专为智能体编程重新设计 [3][4] - 该模型具备双模特长,不仅响应速度快且可靠性高,小任务几乎即时响应,大任务可持续执行数小时 [5][6] - 内部测试显示可连续7小时完成大规模重构任务 [7] 性能表现与效率提升 - 在SWE-bench验证和代码重构任务上,GPT-5-Codex准确率达51.3%,显著超过GPT-5-high的33.9% [9][10] - 后10%用户请求中token消耗量比GPT-5减少93.7%,前10%高复杂度请求中思考耗时达到两倍 [12][13] - 代码审查能力增强,不正确评论从13.7%降至4.4%,高影响力评论从39.4%提升至52.4%,平均每个PR评论数从1.32降至0.93 [16][18] 技术架构与设计理念 - 模型采用动态调整资源机制,根据不同任务复杂度自适应分配计算资源 [9][12] - 提出"Harness"概念,强调模型与外部环境(工具、IDE、终端等)的集成框架重要性,确保模型可执行实际任务 [23][28][34] - 延迟控制低于1.5秒,支持多模式交互包括终端、IDE编辑、GitHub及Cursor集成 [30][32] 内部工具与生态建设 - 内部孵化工具包括10x(终端异步执行工具)、Agents.md(项目环境说明文件)和Code Review Agent(PR审查工具) [36][37][39][40] - Code Review Agent在内部试点中实现数十个PR审查且几乎零bug发布 [41][42] - 编程智能体市场竞品包括Cursor、Claude Code CLI、Gemini CLI及国内腾讯CodeBuddy、阿里Qwen3-Coder、字节TRAE等 [50][51][52] 行业趋势与战略方向 - 编程领域正向"AI写大部分代码+人类监督架构"模式演进,开发者角色转向战略设计与创意指挥 [43][44] - 2025年被视为智能体之年,编程智能体成为行业竞争焦点,国内外厂商均加速布局同类产品 [49][53] - OpenAI通过GPT-5-Codex正式加入编程智能体市场竞争,但面临Cursor、Claude Code等已建立认知的产品挑战 [45][54]
收手吧GPT-5-Codex,外面全是AI编程智能体
36氪· 2025-09-16 10:47
产品发布 - OpenAI推出GPT-5-Codex 专为智能体编程设计 提升代码重构 审查和缺陷发现表现[1] - 新模型具备双模特长 支持即时协作和独立执行 小任务几乎即时 大任务可持续执行数小时 内部测试可连续7小时完成大规模重构[3] - 交互响应更灵敏 代码补全延迟必须低于1.5秒 支持多模式交互包括终端 IDE GitHub和Cursor集成[19][20] 性能表现 - 在SWE-bench验证和代码重构任务上超过目前最先进的GPT-5-high[4] - 动态调整资源机制使低负载请求token消耗量比GPT-5减少93.7% 高复杂度请求思考时间达到两倍[6] - 代码审查能力显著提升 不正确评论从13.7%降至4.4% 高影响力评论从39.4%提升到52.4% 平均每个PR提出的评论数从1.32降至0.93[8][9] 技术背景 - 使用Codex品牌名称作为新模型后缀 延续2021年Codex与GitHub合作打造Copilot的技术路线[1][13] - 提出"Harness"概念 强调模型与外部环境连接的重要性 决定模型是否真正可用[15][17][18] - 编程一直是OpenAI特别关注领域 专门使用代码数据和指标优化模型表现[14] 行业竞争 - 2025年编程智能体大战全面升温 国内外巨头竞争白热化[1][24] - 国外主流产品包括Cursor Claude Code CLI Gemini CLI和GitHub Copilot[24][26] - 国内代表性产品有腾讯CodeBuddy 通义千问Qwen3-Coder 字节TRAE 百度和DeepSeek V3.1系列[24][26] 内部实践 - OpenAI孵化10x内部原型 支持异步长时间执行 带来十倍生产力提升但尚未对外发布[22] - 开发Agents.md说明文件压缩上下文 减少模型探索代码负担 存放团队开发偏好[22] - Code Review Agent能理解PR意图 检查依赖关系 发现人类审查遗漏的bug 内部团队依赖它审查数十个PR并几乎零bug发布[22] 未来展望 - 2030年软件开发将不再是人写代码加工具辅助 而是AI写大部分代码加人类监督和设计架构[22] - 开发者将成为团队指挥官 专注于战略性问题和创意设计 繁琐重复危险工作由AI智能体承担[23] - OpenAI重新定义自动补全为agent-complete 升级智能体编程能力[1]
别再乱试了!Redis 之父力荐:写代码、查 bug,这 2 个大模型封神!
程序员的那些事· 2025-07-21 14:50
核心观点 - LLM作为编程辅助工具能显著提升效率,但需人类主导协作流程才能达到最佳效果[4][6][12] - 前沿LLM如Gemini 2.5 PRO和Claude Opus在代码审查、知识补充、设计优化等方面展现博士级能力[4][9][15] - 当前阶段LLM无法独立处理复杂任务,需通过精准提示和全量上下文输入实现价值最大化[6][7][16] LLM协同编程优势 - 代码质量提升:在Redis Vector Sets实现中通过Gemini/Claude审查提前消除潜在bug[4] - 开发效率飞跃:LLM可快速生成一次性测试代码,验证方案可行性并缩短迭代周期[4] - 知识边界拓展:帮助程序员快速掌握68000汇编等非擅长领域技术[5] 最佳实践方法论 - 上下文供给:需提供完整代码库、设计文档及头脑风暴记录,避免RAG机制削弱性能[7][8][16] - 模型选择策略:复杂问题推荐同时使用Gemini 2.5 PRO(语义理解)和Claude Opus(代码生成)[9][15] - 流程控制:禁止使用智能体自动化,需人工介入代码迁移与信息过滤[10][12][16] 行业争议焦点 - 智能体效用分歧:部分开发者认为Codex等智能体在移动场景下具备实用价值[19][20] - 领域依赖性:编程语言和问题领域显著影响LLM应用效果,需具体案例验证[23][24] - 提示工程成本:严谨的提示词设计所需脑力投入可能接近直接编程[25]