Workflow
MIPROv2
icon
搜索文档
当提示词优化器学会进化,竟能胜过强化学习
机器之心· 2025-07-31 16:58
核心观点 - GEPA(Genetic-Pareto)通过反思式提示词进化技术,性能超越GRPO强化学习算法20%,同时将rollout次数减少至1/35 [1][2][39] - GEPA采用遗传式提示词进化、自然语言反馈反思和基于帕累托的候选选择三大核心原理 [6][7][8] - 在GPT-4.1 mini和Qwen3 8B模型上,GEPA全面超越MIPROv2优化器,最高优势达11.1% [41][42] 技术原理 - **遗传式优化循环**:通过突变/杂交迭代生成新候选,继承父级学习信号并积累经验教训 [13][14][15][16] - **反思式提示更新**:利用LLM分析执行轨迹,将结果归因于模块提示词并提出针对性更新 [21][22][23] - **帕累托候选选择**:筛选非占优候选策略,平衡探索与利用避免局部最优 [27][30][31][35] 性能表现 - **样本效率**:仅用GRPO 1/35的rollout次数实现19%性能提升 [39] - **基准测试**:在HotpotQA/IFBench/Hover/PUPA四大任务中,GEPA聚合分数达61.28(Qwen3 8B)和66.97(GPT-4.1 mini) [38] - **比较优势**:GEPA+Merge方案在GPT-4.1 mini上相对基线提升16.02%,是MIPROv2增益的两倍以上 [38][42] 创新亮点 - **计算效率**:优化后指令比少样本演示提示词更短,降低推理成本 [45] - **杂交策略**:系统感知型Merge操作可额外带来5%性能提升 [47] - **选择策略**:基于帕累托的采样方法比单纯选择最佳候选性能高6.4% [44]