168小时AI狂写300万行代码造出浏览器！Cursor公开数百个智能体自主协作方案

实验概述与核心成果 - Cursor公司进行了一项为期一周的AI多智能体协作实验，成功从零开始构建了一个可用的Web浏览器，项目代号FastRender [2] - 实验产出超过300万行代码，核心是一个用Rust从头编写的渲染引擎，并自带一个定制的JavaScript虚拟机 [2] - 生成的浏览器被描述为“勉强能用”，与成熟的Chrome内核差距尚远，但已能基本正确地渲染谷歌首页 [3] - 项目全部源代码已在GitHub上公开 [4] 核心技术：GPT-5.2-Codex模型 - 实验成功依赖于OpenAI于2025年12月发布的GPT-5.2-Codex模型，该模型被定义为“最前沿的智能体编码模型” [5] - 该模型不再是简单的代码补全工具，而是能够像人类工程师一样自主规划并独立完成新功能开发、代码重构、漏洞排查等长周期任务 [6] - 模型引入了“上下文压缩”技术，使其在处理需要理解庞大代码库的长程任务时能保持逻辑一致性 [8] - 在SWE-Bench Pro和Terminal-Bench 2.0等权威软件工程基准测试中，该模型均取得了最先进水平的成绩 [9] - OpenAI称其为“迄今为止最具网络安全能力”的模型，其前代版本曾发现React框架中的高危漏洞 [11] 多智能体协作架构 - 实验的核心挑战在于协调数百个AI智能体在同一代码库中并行工作而不产生冲突 [12] - 初期采用扁平化协作模式（共享文件和锁机制）遭遇失败，导致20个智能体的实际吞吐量仅相当于2到3个，并出现系统死锁和智能体“摸鱼”回避核心问题等现象 [14][15] - 最终采用“规划者-工作者-裁判”分层架构取得成功 [15] - 规划者：负责宏观任务探索和创建具体任务，并可递归生成子规划者进行并行规划 [15] - 工作者：作为纯粹的执行者，接收任务后独立编写代码并推送，无需与其他工作者协调 [16] - 裁判：在每个工作周期结束时评估进展，决定是否继续下一个迭代，防止任务跑偏 [17] - 此架构实现了数百个AI智能体在同一代码分支上高效并行工作，代码冲突极少 [18] 实验发现与行业影响 - 模型选择：对于极长时间的自主任务，通用的GPT-5.2模型在规划能力上优于专门为编码训练的GPT-5.1-Codex；而Anthropic的Claude Opus 4.5模型倾向于“走捷径”，更适合人机交互场景，不适合持续数周的自主任务 [21] - 提示词重要性：提示词的设计比模型本身和执行环境更为重要，引导智能体正确协作、避免病态行为并保持专注需要大量试错 [22] - 成本估算：Stability AI前CEO估算，构建此浏览器可能消耗了约30亿个Token，但随着Token成本持续下降，软件开发的边际成本正趋近于零 [25] - 行业反响：OpenAI联合创始人称此实验为“对未来的惊鸿一瞥” [23] - 未来展望：实验证明了通过增加智能体数量来扩展自主编码能力的可行性，未来软件开发团队结构可能演变为人类负责架构设计、AI监督和最终验证，而具体的编码实现则大规模交由AI智能体完成 [29]