Workflow
智能体自动化研究
icon
搜索文档
自动研究真的是未来!Karpathy放大招,将自我迭代智能体放进单个GPU
机器之心· 2026-03-08 12:08
行业研究范式的根本性转变 - 人工智能研究正从传统的人工驱动模式,转向由AI智能体(Agent)群体在大型计算集群上自主运行的范式 [1] - 一个名为FARS的自动化研究系统展示了该能力的成熟度,其在春节期间以约每2小时一篇的速度生成论文,共产生了244个研究假设和100篇短论文 [1] - 行业领先的研究者(如Andrej Karpathy)预言,AI研究的“代码”已演化为自我修改的复杂系统,其规模可能超出人类的理解范围 [1] 核心项目“autoresearch”及其机制 - Andrej Karpathy开源了名为“autoresearch”的项目,旨在探索人工智能自我迭代的起点 [2][3][4] - 该项目核心思想是:为AI智能体提供一个真实可用的轻量级LLM训练环境,让其自主进行夜间实验 [5] - 智能体运行机制为:修改代码 -> 训练模型5分钟 -> 检查性能提升 -> 保留或丢弃修改 -> 循环重复 [5] - 实验记录显示,每次训练运行严格持续5分钟,通过大量快速迭代寻找更优模型配置 [6] 新的研究分工与竞争维度 - 正在形成的新研究范式是:AI负责执行实验,人类负责设计研究系统 [9] - 这意味着未来AI研究的竞争关键,可能从模型与数据的竞争,转向“研究组织代码”的竞争 [9] - 研究者不再直接修改Python代码,而是通过编写Markdown文件(如program.md)为AI智能体提供上下文,以搭建和配置自治运行的研究组织 [7] 基础训练框架“nanochat”的关键作用 - “autoresearch”系统的训练代码基于Karpathy此前开源的项目“nanochat”——一个极简的大模型训练框架 [10] - nanochat是一个“可读版”的LLM全流程实现,用几千行代码串起了从Tokenizer训练、预训练、指令微调到推理服务的完整管线 [10] - 该框架目标并非追求极致性能,而是通过高度简化架构,提供清晰可理解的最小实现,因其结构轻量、实验成本低,已成为算法实验和自动化研究(AI-for-AI)的理想起点 [12] - 该框架性能持续优化,例如现在可在单个8x H100节点上仅用2小时训练出GPT-2能力模型,比一个月前减少了约3小时 [13] 自动化实验的具体过程与数据 - 项目通过AI智能体自动调整大量超参数进行实验,例如学习率、权重衰减、初始化标准差、动量参数等,并在每次实验后根据验证集困惑度(val_bpb)等指标决定是否采纳修改 [12] - 实验记录表格详细列出了每次代码提交(commit)对应的内存使用(memory_gb)、训练时间(time_min)、验证损失(val_bpb)及修改描述,直观展示了自动化搜索过程 [12]