AlphaEvolve的核心突破 - 谷歌DeepMind开发的AlphaEvolve智能体,首次利用大语言模型(LLM)驱动,实现了对算法核心逻辑(而非仅参数)的自动改写和进化[3][5] - 该过程完全自动化闭环:由LLM生成算法代码的语义改写版本,在真实博弈环境中自动测试、评估、筛选并循环进化,无需人类参与中间调参或试错[4][6][20] - 进化出的新算法在多项测试中超越了人类专家手工打磨的版本,且其机制并不直观,属于人类难以凭经验穷举出的解决方案[5][6] 实验设计与方法 - 研究团队未让模型从零开始,而是选定了两个成熟的不完全信息博弈算法框架:CFR(后悔最小化)和PSRO(策略种群训练)作为进化起点[17] - 仅将算法的关键决策逻辑(如后悔值累积规则、策略生成方式、元求解器逻辑)拆解为可被改写的Python函数,作为进化的“基因范围”,其余框架固定[18] - 进化过程结合了Gemini系列大模型与进化搜索,对代码进行不断生成、测试、筛选和再进化[9] 进化成果:VAD-CFR算法 - AlphaEvolve针对CFR框架进化出了名为VAD-CFR的新算法,直接修改了后悔值累计、折扣以及平均策略启动时机等核心逻辑[22] - VAD-CFR引入了如“根据波动动态折扣”和“前期蓄力、后期发力”的预热机制等非直观设计[22] - 在多项博弈测试中,VAD-CFR的收敛表现超越了CFR+、DCFR、PCFR+等人类优化版本,在最多1000次迭代中曲线下降更快、最终可被利用度(exploitability)更低[25] - 该优势在规模更大、更复杂的测试游戏中依然保持,表明其改进源于算法结构层面更高效的更新方式,而非针对训练数据的技巧[26][27] 进化成果:SHOR-PSRO算法 - 针对PSRO框架,进化出了SHOR-PSRO算法,其核心是重新设计了“元求解器”[28][30] - SHOR-PSRO设计了一种混合型元求解器,能够动态调整,使训练过程自动从“多样性探索”过渡到“逼近均衡”[30] - 在最多100轮的PSRO迭代中,SHOR-PSRO在多数游戏中比Uniform、Nash、AlphaRank等经典方法收敛更快,在第100次迭代时的可被利用度更低[31] - 在4玩家Kuhn扑克、6面骰子说谎者游戏等更复杂的测试环境中,SHOR-PSRO的优势依然保持,展现了良好的泛化能力[33] 行业影响与反响 - 这项研究被写成37页论文《基于大语言模型的多智能体学习算法自动发现》,在技术圈引起轰动[11] - 业内评论认为,这标志着AI不仅能编写辅助代码,已能设计出超越人类的核心学习算法,是DeepMind的一张“王牌”[13] - 此进展促使人们思考AI自我改进的边界,包括在迈向超强人工智能(ASI)之前,AI是否应优先为自己设计“伦理引擎”或对齐机制[14] - 该研究展示了AI正以更工程化的方式深度融入软件生产,推动Agentic AI从局部试点迈向体系化工程建设[37]
DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
AI前线·2026-02-27 14:00