Workflow
提示词优化
icon
搜索文档
微调已死!「共识机制」实现提示词自我进化,性能飙升
量子位· 2025-10-28 09:18
AI范式转变 - 人工智能领域正经历从“模型微调”向“上下文工程”的范式转变 [1] - “上下文工程”通过引入明确指令和丰富知识,无需高昂训练成本或开源模型参数,提供更强可解释性 [1] - “微调已死”成为AI领域近期广泛认可的热门话题 [2] 单一提示词的局限性 - 单一提示词表达能力有限,难以全面严谨地表述复杂任务的所有需求 [4] - 多提示词相互协作是自然解决方案,单个提示词无法处理的输入可由其他提示词弥补性能损失 [4] C-Evolve算法核心思想 - 基于“共识机制”的提示词组进化算法C-Evolve通过进化算法生成一组提示词 [6] - 该组提示词对输入信息独立处理后,通过提取所有输出结果的共识以实现最优任务性能 [6] - 算法创新性提出“共识表决得分”评估单个提示词在成组工作时的性能潜力,并采用海岛算法提升组内多样性 [6] 共识机制技术细节 - 共识机制由一组独立、同功能的提示词共同完成 [11] - 对于封闭回答类问题采用多数表决输出高频一致答案,对于开放式提问则用LLM表决筛选最具代表性的输出 [13] - 优化目标是寻找在共识机制下最优的一组提示词 [13] 基于海岛的进化算法 - 算法采用基于海岛的进化算法,在相互独立的海岛内并行迭代种群 [14] - 进化过程包含基于个体独立性能的预热阶段和基于跨海岛分组协作表现的共识进化阶段 [14] - 预热阶段将个体独立得分作为进化算法的适应度评分 [16] 共识表决阶段 - 共识表决阶段以个体组成提示组之后的性能作为进化的适应度 [23] - 算法构建提示组,从各岛屿中分别采样一个个体,并基于共识机制测试这些组的评估性能 [23] - 采用指数平滑后的共识表决得分作为适应度评分,赋予最新采样出的组更高权重以抑制早期历史结果影响 [26][28] 算法性能表现 - C-Evolve同时适用于Qwen3-8B开源模型和GPT-4.1-mini闭源模型 [29] - 在Qwen3-8B模型上,C-Evolve在IFBench任务得分为70.67,相比Baseline的50.03提升显著;在GPT-4.1-mini模型上,C-Evolve得分为70.64,相比Baseline的44.24提升显著 [30] - 算法在Hover、MATH、HotpotQA等多个任务上均取得性能提升,例如在Qwen3-8B的MATH任务上从37.66提升至50.33 [30] 算法优势与意义 - C-Evolve通过多提示词共识机制突破单一系统提示词的性能局限,显著提升系统整体性能 [7][32] - 该方法无需参数微调即可实现算法效能的显著提升,为挖掘成熟商业LLM的模型能力提供了新思路 [34] - “共识机制”模拟生物进化与群体协作,提升了提示词性能并增强了模型在复杂任务中的适应能力 [34]