AI研发闭环
搜索文档
人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破
机器之心· 2026-03-29 10:54
文章核心观点 - 人工智能(AI)的发展已进入“决赛圈”,其核心竞争从依赖人类研究员的线性进步,转向AI实现自我进化的指数级跃升[2] - 由创智学院(GAIR)与上海交通大学刘鹏飞研究团队发布的“超智能-进化”(ASI-Evolve)框架,首次在无需人类干预的情况下,打通了AI研发中“发现问题→设计方案→迭代验证→提炼规律”的完整科研闭环,标志着AI开始加速AI自身的发展[5][6] - ASI-Evolve在AI研发最硬核的三大核心战场——神经网络架构设计、预训练数据筛选和强化学习算法设计上,同时取得了科学发现级别的突破,其成果可迁移至药物发现等真实科学应用,证明了AI自我进化能力的实用价值[6][7][9][31] AI自我进化框架(ASI-Evolve)的核心突破 - **框架能力**:ASI-Evolve是一个能够独立完成完整科研闭环的“超智能-进化”框架,实现了从学习、设计、实验到分析的自主循环[5][22] - **设计理念**:该框架通过五个相互配合的角色(研究员、工程师、分析者、数据库、认知池)构建闭环,其关键在于让AI充分吸收人类科研积累,并真正读懂和剖析复杂实验输出,从而将盲目探索压至最低[24][25] - **效率验证**:在数学领域的circle packing任务上,ASI-Evolve仅用17步就达到当前最佳水平(SOTA),速度明显快于OpenEvolve和GEPA等对比系统[28] - **关键组件**:消融实验表明,框架中的“分析者”和“认知池”角色缺一不可,前者缺失会导致进化进入平台期,后者缺失则会导致启动变慢,证明了“知识先验+实验反思”双重驱动的高效性[28] 在神经网络架构设计领域的成果 - **探索规模**:系统以DeltaNet为起点,围绕高效线性注意力进行了1773轮演化实验[13] - **成果数量**:在验证阶段发现了105个性能超过DeltaNet基础架构的新架构[13] - **性能提升**:最终最优模型相较DeltaNet获得大幅提升,其增益接近当前人类设计最佳模型增益的3倍[13] - **泛化能力**:在扩展到13亿参数、1000亿token的大规模验证后,在开发集上的平均准确率达到57.28%,超过DeltaNet的55.76%;在6个未见分布任务上也达到45.40%,超过DeltaNet的44.74%,证明AI发现了可泛化的结构性改进而非“刷榜”技巧[14][15][16] 在预训练数据筛选领域的成果 - **任务内容**:AI面向涵盖数学、计算机、医学等多个STEM类别的大规模语料,自主设计了分领域的数据清洗与保留策略[17] - **性能表现**:在完全相同的训练预算下,使用AI筛选数据训练的30亿参数模型,在18个基准测试上取得44.13的平均分,相比使用原始数据提升了3.96分[18] - **超越人类**:该表现同时超过了DCLM、FineWeb-Edu、Ultra-FineWeb等已有的人类筛选的高质量语料[18] - **专项突破**:在知识密集型任务上提升尤为显著,其中MMLU提升18.64个百分点,CSQA提升18.80个百分点,MedQA提升13.48个百分点[18] - **范式意义**:数据策略不再只是人工规则工程,而成为AI可以持续研究、反复迭代、主动优化的对象[19] 在强化学习算法设计领域的成果 - **探索过程**:系统以GRPO为强基线,直接改写优势估计与梯度更新机制,在300轮演化中训练并评估大量候选算法[20] - **成果数量**:其中10个算法在探索阶段超过GRPO基线,最终有3个进入140亿参数规模的验证[20] - **性能提升**:最终算法在多项数学任务上相对GRPO取得一致提升,包括在AMC32上最高提升12.5分、在AIME24上提升11.67分、在OlympiadBench上提升5.04分[20] - **创新本质**:AI进行的不是参数搜索,而是算法层面的数学创新,例如通过成对比较的优势估计和不对称裁剪来显式建模回答质量差异,或引入全局更新预算来动态分配更新半径以增强稳定性[21] 在跨领域科学应用(药物发现)的验证 - **应用迁移**:研究团队将ASI-Evolve演化出的新神经网络架构,迁移到药物-靶点相互作用预测的真实生物医药任务中[31] - **性能提升**:相较人类设计的DrugBAN基线模型,AI发现的架构在多个基准测试上实现稳定提升,例如在BindingDB开发集上,AUROC提升1.91个百分点,F1分数提升2.95个百分点[32][37] - **泛化价值**:在更困难、更接近真实应用的“冷启动”场景下,面对从未见过的新药或新蛋白时,提升更为显著,例如在“未见药物”场景下AUROC最高提升6.94个百分点,在“药物与蛋白均未见”场景下AUROC提升4.36个百分点[32][37] - **核心结论**:这证明AI自主研究得到的是具有跨领域迁移价值的真实设计能力,而非仅对AI基准测试有效的技巧[32] 对AI行业及研究范式的意义与展望 - **范式转变**:ASI-Evolve首次在统一系统中,系统性地验证了“AI加速AI”的可行性,标志着AI研发范式本身开始发生变化[34][36] - **自我迭代**:AI的智能增长不再仅体现在执行任务上,而是开始能够反哺AI自身的底层科研(架构、数据、算法),加速下一轮发明,形成研究层面的迭代进化[34] - **辐射效应**:AI自我科研能力的提升,能够辐射并赋能数学、生物医药等其他学科的发展[34] - **未来扩展**:这种自我加速可能进一步扩展到框架优化、推理加速等更完整的AI工作流[36] - **人机协作**:随着AI承担更多实现、试验和迭代工作,人类可以将更多精力从“执行方案”转向“定义问题”,专注于最重要的方向判断和价值选择[36]