让LLM互相“审稿”：简单的LLM Collaboration/Ensemble方法实现7%性能提升

文章核心观点 - 针对大语言模型性能差异和单一模型局限性，提出了一种名为LLM-PeerReview的完全无监督、简单有效的LLM集成方法，该方法受学术同行评审启发，通过创新的“翻转三元评分技术”来综合多个LLM的优势，实验表明其性能显著超越单一模型及其他集成基线方法 [4][16][27] LLM集成领域的背景与挑战 - 当前Hugging Face上已有超过182,000个模型可用，但LLM普遍存在准确性有限、幻觉等性能问题，且不同模型对同一提示的回答表现出显著差异 [2] - 现有“推理后集成方法”存在局限性：一类方法依赖任务特定训练数据且需微调大模型，缺乏灵活性；另一类基于相似性选择的方法设计粗糙，依赖浅层度量，其潜力未被充分开发 [3] LLM-PeerReview方法框架 - 框架包含三个顺次模块：评分、推理、选择 [12] - 评分：复用模型集合中的LLM作为评估员，为每个回答打分，并提出了关键的“翻转三元评分技术”以减少评估偏差 [12][13] - 推理：聚合多份评分，衍生出两个版本：LLM-PeerReview（简单平均）和LLM-PeerReview-W（加权平均） [12][15] - 选择：对于每个提示，选择得分最高的回答作为最终集成结果 [12] 核心技术：翻转三元评分技术 - 具体操作包括：对同一提示的多个回答随机洗牌；通过滑动窗口对三元组及其翻转版本进行评分；每个回答从同一位评估员处获得6个分数，取均值作为最终评分 [13] - 该技术旨在缓解LLM-as-a-Judge中的两种偏差：一致性偏差和位置偏差 [14] - 实验证明，该技术是性能提升的关键功臣，使用该技术的单评审员变体比传统单点打分方法性能大幅提升（4个单评审员的提升分别为8.4%、7.2%、6.4%、7.1%） [24] 实验性能与结果分析 - 实验涵盖3种流行任务类型和4个常见数据集，对比了单一LLM、流行的集成基线及本文方法 [11][24] - 巨大性能提升：LLM-PeerReview和LLM-PeerReview-W在平均性能上，以6.9%和7.3%的优势超越了先进的“推理后集成”方法Smoothie-Global，以7.2%和7.6%的优势超越了经典的“推理时集成”方法GaC [24] - 具体数据表现：LLM-PeerReview在TriviaQA、GSM8K、MATH、AlpacaEval数据集上的得分分别为76.9、92.7、69.5、30.4，平均为67.4；LLM-PeerReview-W得分分别为77.0、93.0、71.0、30.2，平均为67.8，均显著优于所有基线 [24] - 其他发现：使用较少的评估员（如单一LLM作为评估者）结合翻转三元评分技术，也能获得不错的结果；加权版LLM-PeerReview-W相较于基础版表现出了一些性能提升 [24] 方法优势与特点 - 方法完全无监督且无需微调，框架具有良好的可解释性 [17] - 既可应用于有标准答案的精确匹配生成任务，也可应用于开放式的生成任务 [17] - 相较于需要多轮交互的基于辩论的LLM协作方法，LLM-PeerReview仅需一轮打分，具有更好的计算效率 [21]