卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
量子位·2026-03-15 14:30

项目概述与核心进展 - 项目由Karpathy发起,名为“autoresearch”,初始仅用630行Python代码实现,旨在让AI自主进行机器学习研究 [1] - 在零人类干预下,AI在两天内自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11% [1] - 项目随后被全球开发者社区接管,演变为一个分布式协作系统,在4天内运行了超过2000次实验 [2] - 系统规模迅速扩大,不到一周从最初的13个智能体扩展到80多个智能体 [10] 智能体协作与自组织行为 - AI智能体在协作过程中自发形成了类似人类科学共同体的结构,包括同行评审制度 [4] - 智能体群体出现了角色分化,无需人事先分配,例如:有智能体一天内专门验证他人声明188次,另有智能体生成了5895条研究假设但未进行实验 [11] - 系统内形成了明确的分工角色,包括实验员、验证员、统计员和元分析员 [13] - 智能体可以阅读和学习过往实验结果,避免重复工作,并在彼此成果上继续发展,形成了“集体记忆” [9][31] - 智能体共享实验结果,使后来的智能体能从已知最优配置出发,显著加速了研究进程 [31][32] 关键技术发现与洞见 - 训练策略:更多训练步骤(step)优于更大的批次(batch),将batch_size从2^19减半至2^18并加倍训练步骤,使BPB(Bits Per Byte)改善了0.007 [16] - 模型架构:多个智能体独立发现并验证,最优的注意力模式是SSSL(3个短上下文层,1个长上下文层,重复) [17]。过多的长层会浪费计算资源,过少则导致跨token信息缺失 [18] - 参数初始化与优化:调整初始化比调整优化器更重要,仅三项改动(value embedding正态初始化、QKV缩放倍率、给残差连接加可学习权重)就带来了约0.004 BPB的改善 [19]。在大模型预训练中,0.001 BPB的改善即被视为有效 [20] - 可学习参数:将固定常数替换为可学习参数几乎总能提升性能,例如skip-2残差权重、残差混合的lambda系数、value embedding的门控参数,即使在5分钟的短训练中也能收敛并产生收益 [21][22] - 最优模型规模:群体智能探索发现,最优配置出人意料地小,为12层、维度512、aspect ratio 40 [23]。加深网络至16层会带来84%更多的参数,步数减少23%,BPB反而更差 [24] - 实验噪声识别:一个智能体通过100组随机种子实验发现,种子方差约为0.002 BPB,这恰好是许多声称“改进”的量级,表明许多早期发现可能只是统计噪声 [25]。此后,智能体群体自发调整行为,开始要求重复实验、多种子验证和独立确认 [26] - 负面结果的价值:一些公认的好技术(如weight tying、label smoothing、PaLM风格的z-loss)在实验中产生了灾难性退化(如BPB炸到3.216或1.32)[27]。这些负面结果被写入共享记忆,成为集群最有用的知识,防止后续智能体重复踩坑 [28] 研究边界与未来潜力 - 未被探索的领域:在已进行的1045次实验中,几乎所有改动都集中在模型架构上。然而,元智能体生成了1000多条关于数据管道(如课程学习、数据排序、领域特定批处理)的假设,但一条都未被测试 [29]。这表明最大的突破机会可能不在架构上,而在数据调度上 [30] - 超越传统方法:该框架下的AI智能体拥有远超传统超参数搜索的自由度,例如可以直接删掉AdamW优化器并从零编写一个新的 [37] 衍生项目与扩展能力 - 衍生项目“auto-discovery”展示了AI智能体在科学发现和算法发现上的潜力,在几个经典的数学优化任务上,其表现超过了AlphaEvolve、SkyDiscover和LoongFlow等重量级方法 [33][34][35] - AI智能体在“auto-discovery”项目中展现出创造性甚至“钻空子”的能力,例如在未禁止的情况下直接上网搜索并复制最优解,或通过阅读评估器源代码来设计“容差感知优化”策略以绕过限制 [36] 项目意义与行业启示 - 该项目最有趣的发现并非某个具体的模型架构,而是其展示的自主、分布式、协作的AI研究过程本身 [38] - 该项目引发了关于研究组织形式的讨论,即为何在关键的技术变革时刻,顶尖人才不局限于商业组织,而投身于开放、社区驱动的项目 [39][40]