MIPROv2 - 财报，业绩电话会，研报，新闻 - Reportify

MIPROv2

搜索文档

当提示词优化器学会进化，竟能胜过强化学习

机器之心· 2025-07-31 16:58

核心观点 - GEPA（Genetic-Pareto）通过反思式提示词进化技术，性能超越GRPO强化学习算法20%，同时将rollout次数减少至1/35 [1][2][39] - GEPA采用遗传式提示词进化、自然语言反馈反思和基于帕累托的候选选择三大核心原理 [6][7][8] - 在GPT-4.1 mini和Qwen3 8B模型上，GEPA全面超越MIPROv2优化器，最高优势达11.1% [41][42] 技术原理 - **遗传式优化循环**：通过突变/杂交迭代生成新候选，继承父级学习信号并积累经验教训 [13][14][15][16] - **反思式提示更新**：利用LLM分析执行轨迹，将结果归因于模块提示词并提出针对性更新 [21][22][23] - **帕累托候选选择**：筛选非占优候选策略，平衡探索与利用避免局部最优 [27][30][31][35] 性能表现 - **样本效率**：仅用GRPO 1/35的rollout次数实现19%性能提升 [39] - **基准测试**：在HotpotQA/IFBench/Hover/PUPA四大任务中，GEPA聚合分数达61.28（Qwen3 8B）和66.97（GPT-4.1 mini） [38] - **比较优势**：GEPA+Merge方案在GPT-4.1 mini上相对基线提升16.02%，是MIPROv2增益的两倍以上 [38][42] 创新亮点 - **计算效率**：优化后指令比少样本演示提示词更短，降低推理成本 [45] - **杂交策略**：系统感知型Merge操作可额外带来5%性能提升 [47] - **选择策略**：基于帕累托的采样方法比单纯选择最佳候选性能高6.4% [44]

反思式提示词进化

基于帕累托的候选选择

Artificial Intelligence

反思式提示词进化

基于帕累托的候选选择

Artificial Intelligence