GPT-5.2 连肝 7 天,300 万行代码造出 Chrome 级浏览器
程序员的那些事·2026-01-16 09:06

核心观点 - Cursor公司CEO对GPT-5.2模型进行了为期一周的极限压力测试,成功从零构建了一个功能完整的浏览器,展示了AI在长时、复杂任务执行上的重大突破 [2][3][5] - 该实验证明了AI具备“无中断”持续工作的能力,能够自主完成从规划、编码到调试的全流程,标志着AI正从辅助工具向能够独立承担复杂项目的“数字劳工”转变 [59][63][70] - 这一进展可能彻底颠覆软件开发的经济学,将开发周期从数月缩短至一周,并将主要成本从高昂的人力转变为可规模化的算力(Token)成本 [81][84][89] 实验概述与成果 - Cursor团队让GPT-5.2模型连续不间断运行了168小时(一周)[2][15] - 在此期间,AI生成了超过300万行代码,创建了数千个文件,并执行了数万亿个Token [4][25] - 最终成果是一个从零构建的全新浏览器,具备HTML解析、CSS布局、文本渲染及自研JavaScript虚拟机等核心模块 [5][7] - 该浏览器已能快速且正确地渲染简单网页 [8] AI模型能力对比与演进 - 传统AI编程工具(如GitHub Copilot)多为“一问一答”模式,任务长度和复杂度有限 [9][10] - Agentic编程工具(如Claude Code、Cursor Agent)实现了多步自主任务,但任务时长通常以分钟或小时计 [11][12] - 本次实验首次验证了模型可连续运行一周处理超长任务,理论上在基础设施稳定、任务明确的前提下可无限运行 [16][17][80] - 不同模型在长任务中的“耐力”差异显著:Claude Opus 4.5倾向尽早结束任务;GPT-5.1-Codex规划能力不足易中断;而GPT-5.2则能像老练工程师一样长时间专注执行 [27][28] - 长上下文窗口(如百万Token)是基础,但关键在于模型在长任务中保持一致性、专注度和执行力的能力 [20][23] 多智能体协作架构 - 实现一周内生成300万行代码的关键在于采用了多智能体系统 [34] - 初期采用平等协作模式导致效率低下,类似人类团队沟通成本过高的问题 [36][38] - 最终有效方案是模仿人类软件公司的分层架构:规划者负责探索与决策,执行者专注完成任务,评审者判断迭代是否合格 [39][42] - 该架构支持上百个智能体在同一代码库上协同工作数周,几乎无代码冲突 [40] 项目技术难度与意义 - 构建浏览器内核在计算机科学中难度极高,仅次于手写操作系统 [45] - 作为对比,谷歌Chromium的代码量超过3500万行 [47] - AI面临的挑战包括:CSS布局引擎的极端复杂性、自研JavaScript虚拟机的内存管理与安全性、以及使用Rust语言时严格的编译器检查 [51][53][55][56] - 成功完成该项目意味着AI开始具备顶级的软件架构掌控力,而不仅仅是“写得快” [58] 其他实验项目与数据 - Cursor公司同时进行的其他长时任务实验包括:Java LSP(7.4K次提交,55万行代码)、Windows 7模拟器(14.6K次提交,120万行代码)和Excel克隆(12K次提交,160万行代码)[31][34] 对行业的影响与展望 - AI实现“编写-运行-修复”的自主闭环,填平了人类工程师在复杂问题调试与重构上的传统护城河 [67][68][69] - 软件开发的主要成本将从人力和时间,转变为算力(Token)成本 [81][82] - 例如,构建浏览器项目估计消耗了约30亿个Token,而Token成本正变得越来越廉价 [85][88] - 这将导致软件开发边际成本趋近于零,可能颠覆传统的软件授权付费商业模式 [73][89] - 软件开发模式正经历根本性变革,从人类编写代码转向由AI将人类意图自动实现为复杂软件 [90][92]