AlphaEvolve再进化，DeepMind用A“养殖”算法，碾压所有人类设计

核心观点 - 谷歌DeepMind开发的AlphaEvolve系统，通过将算法源代码作为基因组，并利用大语言模型作为遗传算子进行“自然选择”，成功进化出全新的博弈论算法[1] - 进化出的算法（如VAD-CFR和SHOR-PSRO）采用了反直觉的、人类研究者从未想过的底层机制，在几乎所有测试的博弈中，性能全面碾压人类几十年设计的经典方案[1][20][21] - 这标志着AI从单纯执行算法，转向了自主发明算法，代表了算法设计范式的根本性转换[1][22][23] 技术框架与工作原理 - 系统名为AlphaEvolve，是一个进化式编码智能体，其工作方式更接近于达尔文的自然选择而非传统编程[5] - 它将算法的源代码当作基因组，使用大语言模型（如Gemini）作为遗传算子，对代码进行有语义的变异，例如重写逻辑、注入新控制流、改变符号操作[5][17] - 系统在一组博弈论基准游戏上评估每个“后代算法”的适应度，核心指标是可利用度，适应度高的算法存活并进入下一代，持续进行变异、评估和筛选[5][14] 目标算法与应用领域 - AlphaEvolve瞄准的目标是多智能体强化学习中两个核心的算法家族：反事实遗憾最小化和策略空间响应预言[6] - 这些算法是不完全信息博弈（如德州扑克）中寻找纳什均衡的关键技术，曾被用于开发Libratus和Pluribus等碾压人类扑克高手的AI[7] - 过去几十年，人类研究者通过手动调参和直觉设计了一系列变体，如CFR+、DCFR等[10] 算法设计的挑战与突破 - 不完全信息博弈是AI领域最难的挑战之一，其特点是玩家无法看到全部信息[12][13] - 算法设计的核心挑战在于设计空间是组合爆炸级别的，涉及如何折现历史遗憾、区别对待正负遗憾、策略平均的时机与权重等众多选择[14] - 传统方法受限于数学可推导性，只能在“优雅但有限”的设计空间搜索，而AlphaEvolve将搜索空间扩展到任意可执行代码，利用LLM进行“有意义的变异”，使得搜索可能性从几百种暴涨到近乎无限[16][17] 进化算法的具体成果 - 进化出的第一套算法VAD-CFR采用了三项反直觉机制：在局势混乱时果断忘掉旧经验、发现好招时立刻加倍下注、前500轮纯学习不做总结[20] - 进化出的第二套算法SHOR-PSRO学会了在训练和考试时使用不同策略：前期大胆试探，后期精准收网；训练时求稳，考试时求准[21] - 这些规则并非来自教科书，而是AI自主“进化”的结果，其有效性让人类专家感到惊讶[22] 性能与影响 - 在11个测试博弈中，AI进化出的算法碾压了所有人类设计的前辈算法[23] - 论文结论指出，自动发现的算法机制（特别是管理遗憾缩放和动态混合调度的机制）对人类直觉而言难以捉摸，但在实践中极其有效[25] - 这不仅是效率的提升，更是算法设计范式的转换，从“人类设计算法，机器执行”转变为“机器设计算法，机器执行”[17][23] 未来方向 - 公司计划将该进化框架应用于深度强化学习智能体的完整设计[25] - 公司还计划探索在合作博弈中的机制发现，预示着让AI进化出整个学习范式的可能性[25]