DeepMind新论文炸锅：AI全自动进化算法，写出专家都想不到的解，网友：这可能就是“王牌”

AlphaEvolve：AI驱动的算法自动进化 - 谷歌DeepMind开发了名为AlphaEvolve的智能体，其核心机制是通过类似生物进化的方式，利用大语言模型（LLM）自动改写和筛选算法代码，实现算法的自我进化 [2] - 该研究颠覆了传统认知，AI不仅限于编写辅助性代码，而是能够直接修改核心算法逻辑，在多项测试中超越了人类专家手工打磨的版本 [1] - 整个过程实现了全自动闭环：生成代码、运行测试、评估表现、筛选优胜版本并进入下一轮进化，人类仅需定义算法骨架和评价标准，不参与中间调参或手动筛选 [1][9] 技术方法与实验设计 - 研究团队没有让模型从零开始，而是选定了两个成熟的不完全信息博弈求解算法框架作为基础：CFR（后悔最小化）和PSRO（策略种群训练） [8] - 研究人员将算法核心逻辑拆解为几个可被改写的Python函数（如后悔值累积规则、策略生成方式等），仅开放这些“关键决策逻辑”供LLM修改，为进化定义了“基因范围” [8] - AlphaEvolve对当前算法代码进行语义上有意义的改写，生成多个版本，每个版本都会被自动编译并在真实博弈环境中对战，根据exploitability等指标进行评分和优胜劣汰 [8][9] 核心成果：VAD-CFR算法 - AlphaEvolve在CFR框架下进化出了全新的VAD-CFR算法，其直接修改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”等核心逻辑 [11] - VAD-CFR引入了volatility-sensitive discounting（根据波动动态折扣）和hard warm-start schedule（前期蓄力、后期发力）等非直观机制 [11] - 在多项博弈测试中，VAD-CFR的表现超过了人类优化过多轮的CFR+、DCFR、PCFR+等版本，其收敛曲线下降更快、最终值更低，在约500次迭代后下降速度明显加快 [13] - 在规模更大、更复杂的测试游戏中，VAD-CFR依然保持优势，表明其改进是在算法结构层面找到了更高效的更新方式，而非针对特定游戏的技巧 [13] 核心成果：SHOR-PSRO算法 - 在PSRO框架下，AlphaEvolve进化出了SHOR-PSRO算法，其核心是重新设计了“元求解器” [13] - SHOR-PSRO将多种更新机制混合，设计了一种混合型meta-solver，并能随着训练进程动态调整，使训练过程自动从“多样性探索”过渡到“逼近均衡” [14] - 在对比测试中，SHOR-PSRO的曲线下降更快，在第100次迭代时的exploitability更低，在同样迭代次数下能更有效地逼近博弈均衡 [16] - 在更复杂的测试游戏（如4-player Kuhn、6-sided Liar's Dice）中，SHOR-PSRO依然保持优势，显示出良好的泛化能力 [16] 行业影响与反响 - 该研究成果以一篇37页的论文形式发布，题为《基于大语言模型的多智能体学习算法自动发现》，在技术圈引起了巨大反响 [4] - 有观点认为，这项技术像是DeepMind手中的一张王牌，可能导致谷歌在AI竞赛中赢得优势 [6] - 该进展引发了关于AI自我改进边界的深入思考，例如AI设计更好的学习算法后，是否也应优先考虑为自己设计“伦理引擎”以解决对齐问题 [7]