GPT-5.2 连肝 7 天，300 万行代码造出 Chrome 级浏览器

核心观点 - Cursor公司CEO对GPT-5.2模型进行了为期一周的极限压力测试，成功从零构建了一个功能完整的浏览器，展示了AI在长时、复杂任务执行上的重大突破 [2][3][5] - 该实验证明了AI具备“无中断”持续工作的能力，能够自主完成从规划、编码到调试的全流程，标志着AI正从辅助工具向能够独立承担复杂项目的“数字劳工”转变 [59][63][70] - 这一进展可能彻底颠覆软件开发的经济学，将开发周期从数月缩短至一周，并将主要成本从高昂的人力转变为可规模化的算力（Token）成本 [81][84][89] 实验概述与成果 - Cursor团队让GPT-5.2模型连续不间断运行了168小时（一周）[2][15] - 在此期间，AI生成了超过300万行代码，创建了数千个文件，并执行了数万亿个Token [4][25] - 最终成果是一个从零构建的全新浏览器，具备HTML解析、CSS布局、文本渲染及自研JavaScript虚拟机等核心模块 [5][7] - 该浏览器已能快速且正确地渲染简单网页 [8] AI模型能力对比与演进 - 传统AI编程工具（如GitHub Copilot）多为“一问一答”模式，任务长度和复杂度有限 [9][10] - Agentic编程工具（如Claude Code、Cursor Agent）实现了多步自主任务，但任务时长通常以分钟或小时计 [11][12] - 本次实验首次验证了模型可连续运行一周处理超长任务，理论上在基础设施稳定、任务明确的前提下可无限运行 [16][17][80] - 不同模型在长任务中的“耐力”差异显著：Claude Opus 4.5倾向尽早结束任务；GPT-5.1-Codex规划能力不足易中断；而GPT-5.2则能像老练工程师一样长时间专注执行 [27][28] - 长上下文窗口（如百万Token）是基础，但关键在于模型在长任务中保持一致性、专注度和执行力的能力 [20][23] 多智能体协作架构 - 实现一周内生成300万行代码的关键在于采用了多智能体系统 [34] - 初期采用平等协作模式导致效率低下，类似人类团队沟通成本过高的问题 [36][38] - 最终有效方案是模仿人类软件公司的分层架构：规划者负责探索与决策，执行者专注完成任务，评审者判断迭代是否合格 [39][42] - 该架构支持上百个智能体在同一代码库上协同工作数周，几乎无代码冲突 [40] 项目技术难度与意义 - 构建浏览器内核在计算机科学中难度极高，仅次于手写操作系统 [45] - 作为对比，谷歌Chromium的代码量超过3500万行 [47] - AI面临的挑战包括：CSS布局引擎的极端复杂性、自研JavaScript虚拟机的内存管理与安全性、以及使用Rust语言时严格的编译器检查 [51][53][55][56] - 成功完成该项目意味着AI开始具备顶级的软件架构掌控力，而不仅仅是“写得快” [58] 其他实验项目与数据 - Cursor公司同时进行的其他长时任务实验包括：Java LSP（7.4K次提交，55万行代码）、Windows 7模拟器（14.6K次提交，120万行代码）和Excel克隆（12K次提交，160万行代码）[31][34] 对行业的影响与展望 - AI实现“编写-运行-修复”的自主闭环，填平了人类工程师在复杂问题调试与重构上的传统护城河 [67][68][69] - 软件开发的主要成本将从人力和时间，转变为算力（Token）成本 [81][82] - 例如，构建浏览器项目估计消耗了约30亿个Token，而Token成本正变得越来越廉价 [85][88] - 这将导致软件开发边际成本趋近于零，可能颠覆传统的软件授权付费商业模式 [73][89] - 软件开发模式正经历根本性变革，从人类编写代码转向由AI将人类意图自动实现为复杂软件 [90][92]