DeepMind新论文炸锅：AI全自动进化算法，写出专家都想不到的解，网友：这可能就是“王牌”

AlphaEvolve的核心突破 - 谷歌DeepMind开发的AlphaEvolve智能体，首次利用大语言模型（LLM）驱动，实现了对算法核心逻辑（而非仅参数）的自动改写和进化[3][5] - 该过程完全自动化闭环：由LLM生成算法代码的语义改写版本，在真实博弈环境中自动测试、评估、筛选并循环进化，无需人类参与中间调参或试错[4][6][20] - 进化出的新算法在多项测试中超越了人类专家手工打磨的版本，且其机制并不直观，属于人类难以凭经验穷举出的解决方案[5][6] 实验设计与方法 - 研究团队未让模型从零开始，而是选定了两个成熟的不完全信息博弈算法框架：CFR（后悔最小化）和PSRO（策略种群训练）作为进化起点[17] - 仅将算法的关键决策逻辑（如后悔值累积规则、策略生成方式、元求解器逻辑）拆解为可被改写的Python函数，作为进化的“基因范围”，其余框架固定[18] - 进化过程结合了Gemini系列大模型与进化搜索，对代码进行不断生成、测试、筛选和再进化[9] 进化成果：VAD-CFR算法 - AlphaEvolve针对CFR框架进化出了名为VAD-CFR的新算法，直接修改了后悔值累计、折扣以及平均策略启动时机等核心逻辑[22] - VAD-CFR引入了如“根据波动动态折扣”和“前期蓄力、后期发力”的预热机制等非直观设计[22] - 在多项博弈测试中，VAD-CFR的收敛表现超越了CFR+、DCFR、PCFR+等人类优化版本，在最多1000次迭代中曲线下降更快、最终可被利用度（exploitability）更低[25] - 该优势在规模更大、更复杂的测试游戏中依然保持，表明其改进源于算法结构层面更高效的更新方式，而非针对训练数据的技巧[26][27] 进化成果：SHOR-PSRO算法 - 针对PSRO框架，进化出了SHOR-PSRO算法，其核心是重新设计了“元求解器”[28][30] - SHOR-PSRO设计了一种混合型元求解器，能够动态调整，使训练过程自动从“多样性探索”过渡到“逼近均衡”[30] - 在最多100轮的PSRO迭代中，SHOR-PSRO在多数游戏中比Uniform、Nash、AlphaRank等经典方法收敛更快，在第100次迭代时的可被利用度更低[31] - 在4玩家Kuhn扑克、6面骰子说谎者游戏等更复杂的测试环境中，SHOR-PSRO的优势依然保持，展现了良好的泛化能力[33] 行业影响与反响 - 这项研究被写成37页论文《基于大语言模型的多智能体学习算法自动发现》，在技术圈引起轰动[11] - 业内评论认为，这标志着AI不仅能编写辅助代码，已能设计出超越人类的核心学习算法，是DeepMind的一张“王牌”[13] - 此进展促使人们思考AI自我改进的边界，包括在迈向超强人工智能（ASI）之前，AI是否应优先为自己设计“伦理引擎”或对齐机制[14] - 该研究展示了AI正以更工程化的方式深度融入软件生产，推动Agentic AI从局部试点迈向体系化工程建设[37]