一个被忽视的Prompt技巧,居然是复制+粘贴。

文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]