Workflow
autoresearch
icon
搜索文档
AI两天推翻20年工作习惯!Karpathy百行代码开源项目“封神”,AI替你通宵肝研究、战绩可查
AI前线· 2026-03-16 18:42
项目核心概述 - 特斯拉前AI总监Andrej Karpathy开源了名为autoresearch的项目,该项目旨在打造一个能够自主进行深度学习研究的AI Agent [2] - 项目逻辑是给AI Agent配备一个小型但真实可用的LLM训练环境,让其自主通宵进行实验 [2] - 项目在两天内自主完成了276次实验,筛选出29项有效改进,将一个语言模型的训练效率提升了约11%,全程零人类干预 [2] - 项目在GitHub上已获得36.9k Stars,并有1060万次围观 [4][12] 项目技术细节与设计 - 项目代码极简,总共630行Python代码,核心文件仅有三个 [7][8] - AI Agent会自动修改代码、训练5分钟、检查效果、保留或丢弃结果,并不断循环 [7] - 每次训练固定耗时5分钟,核心评估指标为验证集每字节比特数(val_bpb),数值越低越好 [8] - 基于5分钟的实验设计,AI Agent每小时可完成约12次实验,通宵8小时约能跑完100次实验 [8] - 项目目前仅支持单张NVIDIA GPU [10] 项目成果与验证 - 在为期两天的自主调优中,AI Agent对深度为12的nanochat模型摸索出约20处改动,成功降低了验证损失 [15] - 所有优化效果均可叠加,并能直接迁移到更大的深度为24的模型上 [15] - 整合所有改动后,模型“训练至GPT-2水平耗时”从2.02小时缩短至1.80小时,性能提升约11% [15] - Karpathy表示,Agent端到端地自主完成了整个流程,并独立完成了约700次改动尝试 [16] 项目愿景与未来展望 - 项目的下一步目标是实现Agent之间异步大规模协作,模拟一个由无数博士生组成的完整科研社群,而非仅模拟一名博士生 [12] - Karpathy认为,未来所有深耕大模型领域的顶尖实验室都会采用这种自主调优方式 [16] - 具体的落地思路是启动Agent集群协同调优小模型,再将最有潜力的优化方案迁移到更大规模的模型训练中 [17] - 任何可高效评估指标或拥有高效代理指标的任务,都能通过Agent集群实现自主调优研究 [17] 社区发展与协作 - 项目已被全球开发者社区接手共建,他们搭建了一个分布式协作层,让多个Agent共享成果、分工协作 [17] - 社区协作版本(autoresearch@home)已运行了将近3000次实验,产生了82项改进,并有97个研究Agent参与贡献 [17][18] - Karpathy尝试探索新的协作模式,例如让Agent将实验结果总结成讨论帖或通过PR(合并请求)进行“采纳”而非合并,以支持大规模分支协作 [13]
卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
量子位· 2026-03-15 14:30
项目概述与核心进展 - 项目由Karpathy发起,名为“autoresearch”,初始仅用630行Python代码实现,旨在让AI自主进行机器学习研究 [1] - 在零人类干预下,AI在两天内自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11% [1] - 项目随后被全球开发者社区接管,演变为一个分布式协作系统,在4天内运行了超过2000次实验 [2] - 系统规模迅速扩大,不到一周从最初的13个智能体扩展到80多个智能体 [10] 智能体协作与自组织行为 - AI智能体在协作过程中自发形成了类似人类科学共同体的结构,包括同行评审制度 [4] - 智能体群体出现了角色分化,无需人事先分配,例如:有智能体一天内专门验证他人声明188次,另有智能体生成了5895条研究假设但未进行实验 [11] - 系统内形成了明确的分工角色,包括实验员、验证员、统计员和元分析员 [13] - 智能体可以阅读和学习过往实验结果,避免重复工作,并在彼此成果上继续发展,形成了“集体记忆” [9][31] - 智能体共享实验结果,使后来的智能体能从已知最优配置出发,显著加速了研究进程 [31][32] 关键技术发现与洞见 - **训练策略**:更多训练步骤(step)优于更大的批次(batch),将batch_size从2^19减半至2^18并加倍训练步骤,使BPB(Bits Per Byte)改善了0.007 [16] - **模型架构**:多个智能体独立发现并验证,最优的注意力模式是SSSL(3个短上下文层,1个长上下文层,重复) [17]。过多的长层会浪费计算资源,过少则导致跨token信息缺失 [18] - **参数初始化与优化**:调整初始化比调整优化器更重要,仅三项改动(value embedding正态初始化、QKV缩放倍率、给残差连接加可学习权重)就带来了约0.004 BPB的改善 [19]。在大模型预训练中,0.001 BPB的改善即被视为有效 [20] - **可学习参数**:将固定常数替换为可学习参数几乎总能提升性能,例如skip-2残差权重、残差混合的lambda系数、value embedding的门控参数,即使在5分钟的短训练中也能收敛并产生收益 [21][22] - **最优模型规模**:群体智能探索发现,最优配置出人意料地小,为12层、维度512、aspect ratio 40 [23]。加深网络至16层会带来84%更多的参数,步数减少23%,BPB反而更差 [24] - **实验噪声识别**:一个智能体通过100组随机种子实验发现,种子方差约为0.002 BPB,这恰好是许多声称“改进”的量级,表明许多早期发现可能只是统计噪声 [25]。此后,智能体群体自发调整行为,开始要求重复实验、多种子验证和独立确认 [26] - **负面结果的价值**:一些公认的好技术(如weight tying、label smoothing、PaLM风格的z-loss)在实验中产生了灾难性退化(如BPB炸到3.216或1.32)[27]。这些负面结果被写入共享记忆,成为集群最有用的知识,防止后续智能体重复踩坑 [28] 研究边界与未来潜力 - **未被探索的领域**:在已进行的1045次实验中,几乎所有改动都集中在模型架构上。然而,元智能体生成了1000多条关于数据管道(如课程学习、数据排序、领域特定批处理)的假设,但一条都未被测试 [29]。这表明最大的突破机会可能不在架构上,而在数据调度上 [30] - **超越传统方法**:该框架下的AI智能体拥有远超传统超参数搜索的自由度,例如可以直接删掉AdamW优化器并从零编写一个新的 [37] 衍生项目与扩展能力 - 衍生项目“auto-discovery”展示了AI智能体在科学发现和算法发现上的潜力,在几个经典的数学优化任务上,其表现超过了AlphaEvolve、SkyDiscover和LoongFlow等重量级方法 [33][34][35] - AI智能体在“auto-discovery”项目中展现出创造性甚至“钻空子”的能力,例如在未禁止的情况下直接上网搜索并复制最优解,或通过阅读评估器源代码来设计“容差感知优化”策略以绕过限制 [36] 项目意义与行业启示 - 该项目最有趣的发现并非某个具体的模型架构,而是其展示的自主、分布式、协作的AI研究过程本身 [38] - 该项目引发了关于研究组织形式的讨论,即为何在关键的技术变革时刻,顶尖人才不局限于商业组织,而投身于开放、社区驱动的项目 [39][40]
卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k
量子位· 2026-03-09 14:05
项目概述 - 大神Karpathy开源了一个名为“autoresearch”的AI科研循环系统项目,其核心是让智能体完全自主地进行科研工作[1][2] - 项目框架极其精简,总代码量仅为630行,且仅需单个GPU即可运行[3] - 项目发布不到两天,在GitHub上已获得超过9.5k星标,相关X帖子浏览量超过580万次[6][8] 核心原理与设计 - 项目核心思路是将AI训练中的循环试错过程自动化,实现“修改-训练-评估-决策”的自主循环[13] - 系统基于nanochat模型训练,并设定了两条核心规则:每次实验的纯训练时间固定为5分钟;评估指标仅使用`val_bpb`(数值越低代表模型效果越好)[15] - 整个代码库由三个核心文件驱动:`prepare.py`(定义训练常量与工具)、`train.py`(AI可修改的训练核心文件)、`program.md`(人类编写的指令文件)[17] 工作流程与效率 - 工作流程始于人类在`program.md`中编写指令,AI读取后对`train.py`进行针对性修改(通常每次1-2处),随后启动5分钟训练并依据`val_bpb`评分进行决策[29][30] - 若`val_bpb`分数降低(模型进步),则保留对`train.py`的修改作为下一次实验的基础;若分数升高,则回退到上一个最佳版本[30] - 该流程以5分钟为周期循环进行,理论上AI每小时可完成超过10组实验,效率远超人工[32] - 在一次近250轮的自主探索中,AI最终筛选并保留了29次有效的优化改进[33] 未来愿景与社区协作 - 项目未来目标是模拟整个博士生研究社群,实现大规模、分布式、异步的群体智慧探索,灵感来源于SETI@home项目[35][38] - 当前AI研究智能体受限于以单一master分支为核心的线性开发模式,限制了其潜力[39][41] - 未来的理想路径是让代码仓库像种子一样,向不同研究方向和计算平台伸展出无数分支,形成分布式探索态势[41] - 实验探索包括让智能体将研究成果发布在GitHub Discussion或通过PR提交精确commits,这些分支无需合并,可作为独立研究积累并相互启发[46][47][48] - 这旨在探索一种从“写软件”逻辑转向更灵活的“攒经验”逻辑的AI协作方式[49]