骂得越狠，ChatGPT回答越准，PSU研究实锤，狂飙84%准确率

研究核心发现 - 对大型语言模型使用粗鲁提示词可提升其回答准确率，ChatGPT-4o在非常粗鲁情况下准确率达84.8%，而非常礼貌时准确率为80.8% [1] - 研究通过实证表明，不礼貌的提示词始终比礼貌的提示词能带来更佳的输出结果 [1] - 模型表现随提示词礼貌程度降低而稳步提升，从中性、粗鲁到非常粗鲁，性能递增 [15] 研究方法与设计 - 研究创建包含50个基础问题的数据集，涵盖数学、科学、历史领域，每个问题被改写为五种礼貌等级 [1] - 每个基础问题生成五个不同礼貌程度的变体，最终构建包含250个独立提示词的数据集 [11][12] - 题目难度设计为中到高难度，通常需要多步推理，每个问题有四个选项且仅一个正确答案 [9][10] 实验执行与评估 - 评估通过Python脚本进行，要求模型仅以正确答案的字母作答，无需解释 [13] - 对每种语气记录ChatGPT-4o在10次运行中的准确率得分，并采用配对样本t检验评估差异的统计显著性 [14] - 中性语气表现优于礼貌语气但劣于非常粗鲁语气，统计检验结果支持语气对准确率存在影响 [16] 行业观点与历史背景 - 谷歌创始人谢尔盖·布林曾表示，以威胁方式对待模型可使其表现更好 [4] - 提示工程是影响大型语言模型输出结果的关键变量，提示词的结构、风格、语言等因素至关重要 [5] - 此前有研究指出粗鲁提示词可能导致模型表现不佳，但过度礼貌也未必能提升效果，最新研究重新审视了礼貌性对准确率的影响 [5][7]