核心观点 - 谷歌DeepMind开发的AlphaEvolve系统,通过将算法源代码作为基因组,并利用大语言模型作为遗传算子进行“自然选择”,成功进化出全新的博弈论算法[1] - 进化出的算法(如VAD-CFR和SHOR-PSRO)采用了反直觉的、人类研究者从未想过的底层机制,在几乎所有测试的博弈中,性能全面碾压人类几十年设计的经典方案[1][20][21] - 这标志着AI从单纯执行算法,转向了自主发明算法,代表了算法设计范式的根本性转换[1][22][23] 技术框架与工作原理 - 系统名为AlphaEvolve,是一个进化式编码智能体,其工作方式更接近于达尔文的自然选择而非传统编程[5] - 它将算法的源代码当作基因组,使用大语言模型(如Gemini)作为遗传算子,对代码进行有语义的变异,例如重写逻辑、注入新控制流、改变符号操作[5][17] - 系统在一组博弈论基准游戏上评估每个“后代算法”的适应度,核心指标是可利用度,适应度高的算法存活并进入下一代,持续进行变异、评估和筛选[5][14] 目标算法与应用领域 - AlphaEvolve瞄准的目标是多智能体强化学习中两个核心的算法家族:反事实遗憾最小化和策略空间响应预言[6] - 这些算法是不完全信息博弈(如德州扑克)中寻找纳什均衡的关键技术,曾被用于开发Libratus和Pluribus等碾压人类扑克高手的AI[7] - 过去几十年,人类研究者通过手动调参和直觉设计了一系列变体,如CFR+、DCFR等[10] 算法设计的挑战与突破 - 不完全信息博弈是AI领域最难的挑战之一,其特点是玩家无法看到全部信息[12][13] - 算法设计的核心挑战在于设计空间是组合爆炸级别的,涉及如何折现历史遗憾、区别对待正负遗憾、策略平均的时机与权重等众多选择[14] - 传统方法受限于数学可推导性,只能在“优雅但有限”的设计空间搜索,而AlphaEvolve将搜索空间扩展到任意可执行代码,利用LLM进行“有意义的变异”,使得搜索可能性从几百种暴涨到近乎无限[16][17] 进化算法的具体成果 - 进化出的第一套算法VAD-CFR采用了三项反直觉机制:在局势混乱时果断忘掉旧经验、发现好招时立刻加倍下注、前500轮纯学习不做总结[20] - 进化出的第二套算法SHOR-PSRO学会了在训练和考试时使用不同策略:前期大胆试探,后期精准收网;训练时求稳,考试时求准[21] - 这些规则并非来自教科书,而是AI自主“进化”的结果,其有效性让人类专家感到惊讶[22] 性能与影响 - 在11个测试博弈中,AI进化出的算法碾压了所有人类设计的前辈算法[23] - 论文结论指出,自动发现的算法机制(特别是管理遗憾缩放和动态混合调度的机制)对人类直觉而言难以捉摸,但在实践中极其有效[25] - 这不仅是效率的提升,更是算法设计范式的转换,从“人类设计算法,机器执行”转变为“机器设计算法,机器执行”[17][23] 未来方向 - 公司计划将该进化框架应用于深度强化学习智能体的完整设计[25] - 公司还计划探索在合作博弈中的机制发现,预示着让AI进化出整个学习范式的可能性[25]
AlphaEvolve再进化,DeepMind用A“养殖”算法,碾压所有人类设计