Workflow
nanoChat
icon
搜索文档
AI两天推翻20年工作习惯!Karpathy百行代码开源项目“封神”,AI替你通宵肝研究、战绩可查
AI前线· 2026-03-16 18:42
项目核心概述 - 特斯拉前AI总监Andrej Karpathy开源了名为autoresearch的项目,该项目旨在打造一个能够自主进行深度学习研究的AI Agent [2] - 项目逻辑是给AI Agent配备一个小型但真实可用的LLM训练环境,让其自主通宵进行实验 [2] - 项目在两天内自主完成了276次实验,筛选出29项有效改进,将一个语言模型的训练效率提升了约11%,全程零人类干预 [2] - 项目在GitHub上已获得36.9k Stars,并有1060万次围观 [4][12] 项目技术细节与设计 - 项目代码极简,总共630行Python代码,核心文件仅有三个 [7][8] - AI Agent会自动修改代码、训练5分钟、检查效果、保留或丢弃结果,并不断循环 [7] - 每次训练固定耗时5分钟,核心评估指标为验证集每字节比特数(val_bpb),数值越低越好 [8] - 基于5分钟的实验设计,AI Agent每小时可完成约12次实验,通宵8小时约能跑完100次实验 [8] - 项目目前仅支持单张NVIDIA GPU [10] 项目成果与验证 - 在为期两天的自主调优中,AI Agent对深度为12的nanochat模型摸索出约20处改动,成功降低了验证损失 [15] - 所有优化效果均可叠加,并能直接迁移到更大的深度为24的模型上 [15] - 整合所有改动后,模型“训练至GPT-2水平耗时”从2.02小时缩短至1.80小时,性能提升约11% [15] - Karpathy表示,Agent端到端地自主完成了整个流程,并独立完成了约700次改动尝试 [16] 项目愿景与未来展望 - 项目的下一步目标是实现Agent之间异步大规模协作,模拟一个由无数博士生组成的完整科研社群,而非仅模拟一名博士生 [12] - Karpathy认为,未来所有深耕大模型领域的顶尖实验室都会采用这种自主调优方式 [16] - 具体的落地思路是启动Agent集群协同调优小模型,再将最有潜力的优化方案迁移到更大规模的模型训练中 [17] - 任何可高效评估指标或拥有高效代理指标的任务,都能通过Agent集群实现自主调优研究 [17] 社区发展与协作 - 项目已被全球开发者社区接手共建,他们搭建了一个分布式协作层,让多个Agent共享成果、分工协作 [17] - 社区协作版本(autoresearch@home)已运行了将近3000次实验,产生了82项改进,并有97个研究Agent参与贡献 [17][18] - Karpathy尝试探索新的协作模式,例如让Agent将实验结果总结成讨论帖或通过PR(合并请求)进行“采纳”而非合并,以支持大规模分支协作 [13]