DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
36氪·2026-02-27 17:32

AlphaEvolve:AI驱动的算法自动进化 - 谷歌DeepMind开发了名为AlphaEvolve的智能体,其核心机制是通过类似生物进化的方式,利用大语言模型(LLM)自动改写和筛选算法代码,实现算法的自我进化 [2] - 该研究颠覆了传统认知,AI不仅限于编写辅助性代码,而是能够直接修改核心算法逻辑,在多项测试中超越了人类专家手工打磨的版本 [1] - 整个过程实现了全自动闭环:生成代码、运行测试、评估表现、筛选优胜版本并进入下一轮进化,人类仅需定义算法骨架和评价标准,不参与中间调参或手动筛选 [1][9] 技术方法与实验设计 - 研究团队没有让模型从零开始,而是选定了两个成熟的不完全信息博弈求解算法框架作为基础:CFR(后悔最小化)和PSRO(策略种群训练) [8] - 研究人员将算法核心逻辑拆解为几个可被改写的Python函数(如后悔值累积规则、策略生成方式等),仅开放这些“关键决策逻辑”供LLM修改,为进化定义了“基因范围” [8] - AlphaEvolve对当前算法代码进行语义上有意义的改写,生成多个版本,每个版本都会被自动编译并在真实博弈环境中对战,根据exploitability等指标进行评分和优胜劣汰 [8][9] 核心成果:VAD-CFR算法 - AlphaEvolve在CFR框架下进化出了全新的VAD-CFR算法,其直接修改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”等核心逻辑 [11] - VAD-CFR引入了volatility-sensitive discounting(根据波动动态折扣)和hard warm-start schedule(前期蓄力、后期发力)等非直观机制 [11] - 在多项博弈测试中,VAD-CFR的表现超过了人类优化过多轮的CFR+、DCFR、PCFR+等版本,其收敛曲线下降更快、最终值更低,在约500次迭代后下降速度明显加快 [13] - 在规模更大、更复杂的测试游戏中,VAD-CFR依然保持优势,表明其改进是在算法结构层面找到了更高效的更新方式,而非针对特定游戏的技巧 [13] 核心成果:SHOR-PSRO算法 - 在PSRO框架下,AlphaEvolve进化出了SHOR-PSRO算法,其核心是重新设计了“元求解器” [13] - SHOR-PSRO将多种更新机制混合,设计了一种混合型meta-solver,并能随着训练进程动态调整,使训练过程自动从“多样性探索”过渡到“逼近均衡” [14] - 在对比测试中,SHOR-PSRO的曲线下降更快,在第100次迭代时的exploitability更低,在同样迭代次数下能更有效地逼近博弈均衡 [16] - 在更复杂的测试游戏(如4-player Kuhn、6-sided Liar's Dice)中,SHOR-PSRO依然保持优势,显示出良好的泛化能力 [16] 行业影响与反响 - 该研究成果以一篇37页的论文形式发布,题为《基于大语言模型的多智能体学习算法自动发现》,在技术圈引起了巨大反响 [4] - 有观点认为,这项技术像是DeepMind手中的一张王牌,可能导致谷歌在AI竞赛中赢得优势 [6] - 该进展引发了关于AI自我改进边界的深入思考,例如AI设计更好的学习算法后,是否也应优先考虑为自己设计“伦理引擎”以解决对齐问题 [7]

DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌” - Reportify