Gemini准确率从21%飙到97%！谷歌只用了这一招：复制粘贴

文章核心观点 - Google Research研究发现，对大语言模型使用“提示词重复”技巧，即在输入时简单地将问题或上下文复制粘贴一遍，能显著提升其在非推理任务上的准确率，且几乎不影响生成速度，是一种高效的“免费午餐”[1][4][6][7] 研究核心发现与效果 - 在要求模型不进行显式推理、只给直接答案的非推理任务中，“提示词重复”技巧在70组正面对比中赢了47组，输了0组，其余为平局[12][13] - 在名为“NameIndex”的精确检索测试中，Gemini 2.0 Flash-Lite模型的准确率从基线21.33%飙升至97.33%，提升高达76个百分点[16][18] - 该技巧在需要从长篇内容中精确检索信息的任务上提升效果尤为显著[14] 技术原理：因果盲点 - 大语言模型基于Transformer架构，按严格的从左到右因果顺序处理文本，这导致其存在“因果盲点”，即模型在处理某个词元时无法知晓其后的信息[21][24] - 信息的顺序至关重要，“上下文+问题”与“问题+上下文”的输入格式可能导致完全不同的结果，因为模型可能先读到问题而忘记或无法有效关联后续的上下文[25][26] - “提示词重复”将输入从<QUERY>变为<QUERY><QUERY>，当模型处理第二遍内容时，第二份拷贝中的每个词元都能“注意”到第一份拷贝中的完整信息，从而获得了类似“双向注意力”的回顾能力，有效弥补了因果盲点[28][30][31][32] 效率与成本优势 - 由于Transformer架构的预填充阶段高度可并行，现代GPU能高效处理，因此重复输入提示词对用户感知的延迟影响微乎其微，几乎不会增加“首字延迟”[36][37][40] - 该技巧使得更小、更快的轻量级模型在经过“重复优化”后，在检索和抽取任务上的表现可以打平甚至超越未优化的顶级大模型，让企业能以更低成本获得高准确率[41][42] 适用边界与局限性 - “提示词重复”技巧主要适用于非推理任务，如快速直接的答案、从长文档中提取数据、分类或简单问答[52] - 该技巧不适用于需要逐步推导的推理场景，当与“思维链”方法混合使用时效果不佳，在28次测试中仅赢5次、输1次[46][47][48] - 研究人员推测，擅长推理的模型在思考时本身就会复述题目，此时额外的人工重复可能显得多余甚至干扰模型思路[49][50][51] 潜在的安全影响 - 重复可能增强模型对指令的注意力，这存在安全隐患，例如可能放大某些恶意指令的显著性，提高“越狱”攻击的成功率，安全团队需要专门测试“重复注入”攻击[54][56][57][58] - 反之，该机制也可用于防御，例如在系统提示词开头重复安全规则，可能以极低成本迫使模型更严格地遵守安全约束[59][60] 行业意义与未来展望 - 该研究揭示了当前大语言模型仍受单向性架构的深刻限制，在等待下一代架构前，“提示词重复”这类简单技巧能立即带来价值[61] - 该技巧未来可能成为AI系统后台的默认处理行为[62] - 对于开发者而言，在面对模型难以遵循指令或抓取文档重点的问题时，可优先尝试此简单方法，而非复杂的提示工程[63][64]