Workflow
合成引导预训练
icon
搜索文档
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审
机器之心· 2026-03-05 15:43
持续自我提升式AI的定义与目标 - 持续自我提升式AI系统被定义为一旦被创造,就能自主且持续地进行自我改进,并且其改进效果要优于人类创造者对它的改进[9] - 研究聚焦于满足两个假设的AI系统:参数化(基于神经网络)和必须经过资源密集型的预训练阶段[11] - 这类AI系统应具备三个核心特性:持续获取新知识而不灾难性遗忘旧知识、生成自身训练信号且学习效果超越人类信号、能够自主设计学习算法[17] 当前AI发展的三大局限 - 模型在初始预训练后权重静态化,无法持续融入新知识[16] - 高质量人类数据有限,前沿语言模型训练所用的token数量正迅速逼近互联网上公开可用的token总量[24] - 新算法的发现高度依赖人力,过程成本高昂且发现的仅是所有可能算法中的一个子集[27] 解决方案一:合成持续训练范式 - 提出“合成持续训练”范式,让模型在预训练后能持续学习小众领域知识,同时避免灾难性遗忘[4] - 使用“实体图合成数据生成”技术解决简单重写数据缺乏多样性的问题,通过提取实体并描述其关系来生成多样化合成语料[58] - 在QuALITY数据集(265本专业书籍,约180万个token)上的实验显示,使用实体图方法后,Llama-3-8B模型在闭卷问答准确率从基础模型的39.49%提升至56.22%[41][50][65] - 合成持续预训练与检索工具(开卷考试)结合可获得最佳效果,闭卷准确率达56.22%,开卷准确率达62.60%[65][67] 解决方案二:预训练能力的自我提升 - 提出“合成引导预训练”技术,旨在利用互联网文档间未被充分利用的相关性来普遍提升模型的预训练能力[76][79] - 技术流程分为三步:用固定数据预训练模型、将模型微调为合成数据生成器、结合真实与合成数据重新预训练以提升性能[79] - 实验使用Llama 3架构,在计算量匹配的对比中,SBPT方法在多个评估基准上表现优于仅重复数据的基准方法,且扩展曲线与能使用无限真实数据的Oracle基准相似[99][104] - 在200B token规模下,SBPT将平均问答准确率相对基准提升了2.32个百分点;模型规模和质量提升后,合成数据中的“非事实”错误率从15.1%(200B-scale)显著下降至6.5%(1T-scale, 6B)[105][110][112] 解决方案三:迈向AI设计AI - 构建“研究环境”抽象,使AI能够通过生成想法、编写代码、运行实验来自主进行AI研究[123][124] - 在后训练(使用GRPO算法进行数学推理)任务中,通过测试时搜索,模型准确率从基准的48.0%提升至69.4%,接近人类专家68.8%的水平[137] - 模型能够提出并实现创新的算法思路,例如在数学推理任务中提出“数学工作记忆模拟”概念,通过维护上下文缓冲区将性能提升10%[149] - 观察到串行计算比并行计算更有价值,串行搜索比多数投票等并行方法带来更显著的性能提升[143][144] 核心观点与哲学展望 - 研究核心是系统性地探索让AI实现持续自我提升的路径,以克服当前模型权重静态化、人类数据枯竭和算法发现依赖人力的局限[1] - 通过合成数据生成、引导预训练和自动化研究环境,展示了AI在知识获取、预训练能力提升和算法设计方面实现自我改进的潜力[4][68][115] - 类比爱因斯坦的场方程预言了其本人最初无法接受的宇宙膨胀,指出基于算法过程创造的智能体拥有进化出超越创造者智能水平的必然性[4][157][160] - 认为AI超越人类是必然的,因为创造过程具有算法性,如同物理方程的推导,其产物不限于创造者能力的子集[162]