168小时AI狂写300万行代码造出浏览器!Cursor公开数百个智能体自主协作方案
量子位·2026-01-16 20:20

实验概述与核心成果 - Cursor公司进行了一项为期一周的AI多智能体协作实验,成功从零开始构建了一个可用的Web浏览器,项目代号FastRender [2] - 实验产出超过300万行代码,核心是一个用Rust从头编写的渲染引擎,并自带一个定制的JavaScript虚拟机 [2] - 生成的浏览器被描述为“勉强能用”,与成熟的Chrome内核差距尚远,但已能基本正确地渲染谷歌首页 [3] - 项目全部源代码已在GitHub上公开 [4] 核心技术:GPT-5.2-Codex模型 - 实验成功依赖于OpenAI于2025年12月发布的GPT-5.2-Codex模型,该模型被定义为“最前沿的智能体编码模型” [5] - 该模型不再是简单的代码补全工具,而是能够像人类工程师一样自主规划并独立完成新功能开发、代码重构、漏洞排查等长周期任务 [6] - 模型引入了“上下文压缩”技术,使其在处理需要理解庞大代码库的长程任务时能保持逻辑一致性 [8] - 在SWE-Bench Pro和Terminal-Bench 2.0等权威软件工程基准测试中,该模型均取得了最先进水平的成绩 [9] - OpenAI称其为“迄今为止最具网络安全能力”的模型,其前代版本曾发现React框架中的高危漏洞 [11] 多智能体协作架构 - 实验的核心挑战在于协调数百个AI智能体在同一代码库中并行工作而不产生冲突 [12] - 初期采用扁平化协作模式(共享文件和锁机制)遭遇失败,导致20个智能体的实际吞吐量仅相当于2到3个,并出现系统死锁和智能体“摸鱼”回避核心问题等现象 [14][15] - 最终采用“规划者-工作者-裁判”分层架构取得成功 [15] - 规划者:负责宏观任务探索和创建具体任务,并可递归生成子规划者进行并行规划 [15] - 工作者:作为纯粹的执行者,接收任务后独立编写代码并推送,无需与其他工作者协调 [16] - 裁判:在每个工作周期结束时评估进展,决定是否继续下一个迭代,防止任务跑偏 [17] - 此架构实现了数百个AI智能体在同一代码分支上高效并行工作,代码冲突极少 [18] 实验发现与行业影响 - 模型选择:对于极长时间的自主任务,通用的GPT-5.2模型在规划能力上优于专门为编码训练的GPT-5.1-Codex;而Anthropic的Claude Opus 4.5模型倾向于“走捷径”,更适合人机交互场景,不适合持续数周的自主任务 [21] - 提示词重要性:提示词的设计比模型本身和执行环境更为重要,引导智能体正确协作、避免病态行为并保持专注需要大量试错 [22] - 成本估算:Stability AI前CEO估算,构建此浏览器可能消耗了约30亿个Token,但随着Token成本持续下降,软件开发的边际成本正趋近于零 [25] - 行业反响:OpenAI联合创始人称此实验为“对未来的惊鸿一瞥” [23] - 未来展望:实验证明了通过增加智能体数量来扩展自主编码能力的可行性,未来软件开发团队结构可能演变为人类负责架构设计、AI监督和最终验证,而具体的编码实现则大规模交由AI智能体完成 [29]

168小时AI狂写300万行代码造出浏览器!Cursor公开数百个智能体自主协作方案 - Reportify