autoresearch - 财报，业绩电话会，研报，新闻

autoresearch

搜索文档

AI两天推翻20年工作习惯！Karpathy百行代码开源项目“封神”，AI替你通宵肝研究、战绩可查

AI前线· 2026-03-16 18:42

项目核心概述 - 特斯拉前AI总监Andrej Karpathy开源了名为autoresearch的项目，该项目旨在打造一个能够自主进行深度学习研究的AI Agent [2] - 项目逻辑是给AI Agent配备一个小型但真实可用的LLM训练环境，让其自主通宵进行实验 [2] - 项目在两天内自主完成了276次实验，筛选出29项有效改进，将一个语言模型的训练效率提升了约11%，全程零人类干预 [2] - 项目在GitHub上已获得36.9k Stars，并有1060万次围观 [4][12] 项目技术细节与设计 - 项目代码极简，总共630行Python代码，核心文件仅有三个 [7][8] - AI Agent会自动修改代码、训练5分钟、检查效果、保留或丢弃结果，并不断循环 [7] - 每次训练固定耗时5分钟，核心评估指标为验证集每字节比特数（val_bpb），数值越低越好 [8] - 基于5分钟的实验设计，AI Agent每小时可完成约12次实验，通宵8小时约能跑完100次实验 [8] - 项目目前仅支持单张NVIDIA GPU [10] 项目成果与验证 - 在为期两天的自主调优中，AI Agent对深度为12的nanochat模型摸索出约20处改动，成功降低了验证损失 [15] - 所有优化效果均可叠加，并能直接迁移到更大的深度为24的模型上 [15] - 整合所有改动后，模型“训练至GPT-2水平耗时”从2.02小时缩短至1.80小时，性能提升约11% [15] - Karpathy表示，Agent端到端地自主完成了整个流程，并独立完成了约700次改动尝试 [16] 项目愿景与未来展望 - 项目的下一步目标是实现Agent之间异步大规模协作，模拟一个由无数博士生组成的完整科研社群，而非仅模拟一名博士生 [12] - Karpathy认为，未来所有深耕大模型领域的顶尖实验室都会采用这种自主调优方式 [16] - 具体的落地思路是启动Agent集群协同调优小模型，再将最有潜力的优化方案迁移到更大规模的模型训练中 [17] - 任何可高效评估指标或拥有高效代理指标的任务，都能通过Agent集群实现自主调优研究 [17] 社区发展与协作 - 项目已被全球开发者社区接手共建，他们搭建了一个分布式协作层，让多个Agent共享成果、分工协作 [17] - 社区协作版本（autoresearch@home）已运行了将近3000次实验，产生了82项改进，并有97个研究Agent参与贡献 [17][18] - Karpathy尝试探索新的协作模式，例如让Agent将实验结果总结成讨论帖或通过PR（合并请求）进行“采纳”而非合并，以支持大规模分支协作 [13]

Artificial Intelligence

AI Agent

Artificial Intelligence

autoresearch

nanoChat

Artificial Intelligence

AI Agent

Artificial Intelligence

autoresearch

nanoChat

卡帕西630行代码炸出81个智能体，4天协作跑2333次实验，公布预训练十大发现

量子位· 2026-03-15 14:30

项目概述与核心进展 - 项目由Karpathy发起，名为“autoresearch”，初始仅用630行Python代码实现，旨在让AI自主进行机器学习研究 [1] - 在零人类干预下，AI在两天内自主完成了276次实验，筛选出29项有效改进，将语言模型的训练效率提升了约11% [1] - 项目随后被全球开发者社区接管，演变为一个分布式协作系统，在4天内运行了超过2000次实验 [2] - 系统规模迅速扩大，不到一周从最初的13个智能体扩展到80多个智能体 [10] 智能体协作与自组织行为 - AI智能体在协作过程中自发形成了类似人类科学共同体的结构，包括同行评审制度 [4] - 智能体群体出现了角色分化，无需人事先分配，例如：有智能体一天内专门验证他人声明188次，另有智能体生成了5895条研究假设但未进行实验 [11] - 系统内形成了明确的分工角色，包括实验员、验证员、统计员和元分析员 [13] - 智能体可以阅读和学习过往实验结果，避免重复工作，并在彼此成果上继续发展，形成了“集体记忆” [9][31] - 智能体共享实验结果，使后来的智能体能从已知最优配置出发，显著加速了研究进程 [31][32] 关键技术发现与洞见 - **训练策略**：更多训练步骤（step）优于更大的批次（batch），将batch_size从2^19减半至2^18并加倍训练步骤，使BPB（Bits Per Byte）改善了0.007 [16] - **模型架构**：多个智能体独立发现并验证，最优的注意力模式是SSSL（3个短上下文层，1个长上下文层，重复） [17]。过多的长层会浪费计算资源，过少则导致跨token信息缺失 [18] - **参数初始化与优化**：调整初始化比调整优化器更重要，仅三项改动（value embedding正态初始化、QKV缩放倍率、给残差连接加可学习权重）就带来了约0.004 BPB的改善 [19]。在大模型预训练中，0.001 BPB的改善即被视为有效 [20] - **可学习参数**：将固定常数替换为可学习参数几乎总能提升性能，例如skip-2残差权重、残差混合的lambda系数、value embedding的门控参数，即使在5分钟的短训练中也能收敛并产生收益 [21][22] - **最优模型规模**：群体智能探索发现，最优配置出人意料地小，为12层、维度512、aspect ratio 40 [23]。加深网络至16层会带来84%更多的参数，步数减少23%，BPB反而更差 [24] - **实验噪声识别**：一个智能体通过100组随机种子实验发现，种子方差约为0.002 BPB，这恰好是许多声称“改进”的量级，表明许多早期发现可能只是统计噪声 [25]。此后，智能体群体自发调整行为，开始要求重复实验、多种子验证和独立确认 [26] - **负面结果的价值**：一些公认的好技术（如weight tying、label smoothing、PaLM风格的z-loss）在实验中产生了灾难性退化（如BPB炸到3.216或1.32）[27]。这些负面结果被写入共享记忆，成为集群最有用的知识，防止后续智能体重复踩坑 [28] 研究边界与未来潜力 - **未被探索的领域**：在已进行的1045次实验中，几乎所有改动都集中在模型架构上。然而，元智能体生成了1000多条关于数据管道（如课程学习、数据排序、领域特定批处理）的假设，但一条都未被测试 [29]。这表明最大的突破机会可能不在架构上，而在数据调度上 [30] - **超越传统方法**：该框架下的AI智能体拥有远超传统超参数搜索的自由度，例如可以直接删掉AdamW优化器并从零编写一个新的 [37] 衍生项目与扩展能力 - 衍生项目“auto-discovery”展示了AI智能体在科学发现和算法发现上的潜力，在几个经典的数学优化任务上，其表现超过了AlphaEvolve、SkyDiscover和LoongFlow等重量级方法 [33][34][35] - AI智能体在“auto-discovery”项目中展现出创造性甚至“钻空子”的能力，例如在未禁止的情况下直接上网搜索并复制最优解，或通过阅读评估器源代码来设计“容差感知优化”策略以绕过限制 [36] 项目意义与行业启示 - 该项目最有趣的发现并非某个具体的模型架构，而是其展示的自主、分布式、协作的AI研究过程本身 [38] - 该项目引发了关于研究组织形式的讨论，即为何在关键的技术变革时刻，顶尖人才不局限于商业组织，而投身于开放、社区驱动的项目 [39][40]

卡帕西开源Agent自进化训练框架，5分钟一轮实验，48h内揽星9.5k

量子位· 2026-03-09 14:05

项目概述 - 大神Karpathy开源了一个名为“autoresearch”的AI科研循环系统项目，其核心是让智能体完全自主地进行科研工作[1][2] - 项目框架极其精简，总代码量仅为630行，且仅需单个GPU即可运行[3] - 项目发布不到两天，在GitHub上已获得超过9.5k星标，相关X帖子浏览量超过580万次[6][8] 核心原理与设计 - 项目核心思路是将AI训练中的循环试错过程自动化，实现“修改-训练-评估-决策”的自主循环[13] - 系统基于nanochat模型训练，并设定了两条核心规则：每次实验的纯训练时间固定为5分钟；评估指标仅使用`val_bpb`（数值越低代表模型效果越好）[15] - 整个代码库由三个核心文件驱动：`prepare.py`（定义训练常量与工具）、`train.py`（AI可修改的训练核心文件）、`program.md`（人类编写的指令文件）[17] 工作流程与效率 - 工作流程始于人类在`program.md`中编写指令，AI读取后对`train.py`进行针对性修改（通常每次1-2处），随后启动5分钟训练并依据`val_bpb`评分进行决策[29][30] - 若`val_bpb`分数降低（模型进步），则保留对`train.py`的修改作为下一次实验的基础；若分数升高，则回退到上一个最佳版本[30] - 该流程以5分钟为周期循环进行，理论上AI每小时可完成超过10组实验，效率远超人工[32] - 在一次近250轮的自主探索中，AI最终筛选并保留了29次有效的优化改进[33] 未来愿景与社区协作 - 项目未来目标是模拟整个博士生研究社群，实现大规模、分布式、异步的群体智慧探索，灵感来源于SETI@home项目[35][38] - 当前AI研究智能体受限于以单一master分支为核心的线性开发模式，限制了其潜力[39][41] - 未来的理想路径是让代码仓库像种子一样，向不同研究方向和计算平台伸展出无数分支，形成分布式探索态势[41] - 实验探索包括让智能体将研究成果发布在GitHub Discussion或通过PR提交精确commits，这些分支无需合并，可作为独立研究积累并相互启发[46][47][48] - 这旨在探索一种从“写软件”逻辑转向更灵活的“攒经验”逻辑的AI协作方式[49]