Workflow
当提示词优化器学会进化,竟能胜过强化学习
机器之心·2025-07-31 16:58

核心观点 - GEPA(Genetic-Pareto)通过反思式提示词进化技术,性能超越GRPO强化学习算法20%,同时将rollout次数减少至1/35 [1][2][39] - GEPA采用遗传式提示词进化、自然语言反馈反思和基于帕累托的候选选择三大核心原理 [6][7][8] - 在GPT-4.1 mini和Qwen3 8B模型上,GEPA全面超越MIPROv2优化器,最高优势达11.1% [41][42] 技术原理 - 遗传式优化循环:通过突变/杂交迭代生成新候选,继承父级学习信号并积累经验教训 [13][14][15][16] - 反思式提示更新:利用LLM分析执行轨迹,将结果归因于模块提示词并提出针对性更新 [21][22][23] - 帕累托候选选择:筛选非占优候选策略,平衡探索与利用避免局部最优 [27][30][31][35] 性能表现 - 样本效率:仅用GRPO 1/35的rollout次数实现19%性能提升 [39] - 基准测试:在HotpotQA/IFBench/Hover/PUPA四大任务中,GEPA聚合分数达61.28(Qwen3 8B)和66.97(GPT-4.1 mini) [38] - 比较优势:GEPA+Merge方案在GPT-4.1 mini上相对基线提升16.02%,是MIPROv2增益的两倍以上 [38][42] 创新亮点 - 计算效率:优化后指令比少样本演示提示词更短,降低推理成本 [45] - 杂交策略:系统感知型Merge操作可额外带来5%性能提升 [47] - 选择策略:基于帕累托的采样方法比单纯选择最佳候选性能高6.4% [44]