困惑度
搜索文档
骂得越狠,ChatGPT回答越准,PSU研究实锤,狂飙84%准确率
36氪· 2025-10-15 09:51
告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。 别对你的ChatGPT太好了! 一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。 诸如「请、谢谢」之类的客气话,以后不要再说了... 实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级—— 非常礼貌、礼貌、中性、粗鲁、非常粗鲁 论文地址:https://arxiv.org/pdf/2510.04950 最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。 结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。 非常粗鲁:准确率84.8% 非常礼貌:准确率80.8% 这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。 谷歌创始人谢尔盖·布林曾在一场论坛中坦言: 所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。 论文地址:https://arxiv.org/pdf/2402.14531 一年之后 ...
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 16:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]