一个被忽视的Prompt技巧，居然是复制+粘贴。

文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率该方法仅需将用户问题原样复制粘贴一遍无需添加任何额外指令或解释根据谷歌论文的实验结果在70个基准模型组合测试中该方法在47个组合中胜出其余23个打平无一失败部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型对已具备思维链能力的推理模型效果有限其原理在于大模型是因果语言模型重复问题为模型提供了“回头看”的机会使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知表明对于许多纯粹的问答场景最简单直接的重复操作可能是最有效的优化手段其思想可类比人类社会的复述、强调等行为并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等并包含两个自定义任务：NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次其余23次打平没有一次失败所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛在某些任务上模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构在生成下一个词时只能看到之前的文本无法前瞻后续内容 [28][29] - 当问题被重复时例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时其注意力机制可以“看到”第一个问题“Q1”的全部内容这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明：第一次阅读选项时模型缺乏后续的场景信息作为判断依据而当问题重复后模型在第二次处理选项时已经携带了第一次获得的完整场景信息从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡非推理模型响应速度快但准确性相对较低推理模型准确性高但速度慢提示词重复技巧可以在不牺牲非推理模型速度的前提下大幅提升其准确性因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值对于许多短问题问答场景复杂的提示词结构可能并非必要最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向包括将提示词重复结构融入模型的预训练或微调流程优化推理阶段的键值缓存以提升效率尝试只重复提示词的关键部分以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象指出重复是人类社会中普遍存在的强化认知和情感的手段如复述、强调、朗诵、宣誓等人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终文章建议在面对复杂问题或混乱情境时无论是与AI交互还是处理个人事务重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]