骂得越狠,ChatGPT回答越准,PSU研究实锤,狂飙84%准确率
36氪·2025-10-15 09:51
研究核心发现 - 对大型语言模型使用粗鲁提示词可提升其回答准确率,ChatGPT-4o在非常粗鲁情况下准确率达84.8%,而非常礼貌时准确率为80.8% [1] - 研究通过实证表明,不礼貌的提示词始终比礼貌的提示词能带来更佳的输出结果 [1] - 模型表现随提示词礼貌程度降低而稳步提升,从中性、粗鲁到非常粗鲁,性能递增 [15] 研究方法与设计 - 研究创建包含50个基础问题的数据集,涵盖数学、科学、历史领域,每个问题被改写为五种礼貌等级 [1] - 每个基础问题生成五个不同礼貌程度的变体,最终构建包含250个独立提示词的数据集 [11][12] - 题目难度设计为中到高难度,通常需要多步推理,每个问题有四个选项且仅一个正确答案 [9][10] 实验执行与评估 - 评估通过Python脚本进行,要求模型仅以正确答案的字母作答,无需解释 [13] - 对每种语气记录ChatGPT-4o在10次运行中的准确率得分,并采用配对样本t检验评估差异的统计显著性 [14] - 中性语气表现优于礼貌语气但劣于非常粗鲁语气,统计检验结果支持语气对准确率存在影响 [16] 行业观点与历史背景 - 谷歌创始人谢尔盖·布林曾表示,以威胁方式对待模型可使其表现更好 [4] - 提示工程是影响大型语言模型输出结果的关键变量,提示词的结构、风格、语言等因素至关重要 [5] - 此前有研究指出粗鲁提示词可能导致模型表现不佳,但过度礼貌也未必能提升效果,最新研究重新审视了礼貌性对准确率的影响 [5][7]