困惑度 - 财报，业绩电话会，研报，新闻

困惑度

搜索文档

36氪· 2025-10-15 09:51

研究核心发现 - 对大型语言模型使用粗鲁提示词可提升其回答准确率，ChatGPT-4o在非常粗鲁情况下准确率达84.8%，而非常礼貌时准确率为80.8% [1] - 研究通过实证表明，不礼貌的提示词始终比礼貌的提示词能带来更佳的输出结果 [1] - 模型表现随提示词礼貌程度降低而稳步提升，从中性、粗鲁到非常粗鲁，性能递增 [15] 研究方法与设计 - 研究创建包含50个基础问题的数据集，涵盖数学、科学、历史领域，每个问题被改写为五种礼貌等级 [1] - 每个基础问题生成五个不同礼貌程度的变体，最终构建包含250个独立提示词的数据集 [11][12] - 题目难度设计为中到高难度，通常需要多步推理，每个问题有四个选项且仅一个正确答案 [9][10] 实验执行与评估 - 评估通过Python脚本进行，要求模型仅以正确答案的字母作答，无需解释 [13] - 对每种语气记录ChatGPT-4o在10次运行中的准确率得分，并采用配对样本t检验评估差异的统计显著性 [14] - 中性语气表现优于礼貌语气但劣于非常粗鲁语气，统计检验结果支持语气对准确率存在影响 [16] 行业观点与历史背景 - 谷歌创始人谢尔盖·布林曾表示，以威胁方式对待模型可使其表现更好 [4] - 提示工程是影响大型语言模型输出结果的关键变量，提示词的结构、风格、语言等因素至关重要 [5] - 此前有研究指出粗鲁提示词可能导致模型表现不佳，但过度礼貌也未必能提升效果，最新研究重新审视了礼貌性对准确率的影响 [5][7]

扩散语言模型真的会比自回归好？理论分析结果可能恰恰相反

机器之心· 2025-06-10 16:41

扩散语言模型与自回归模型对比研究 - 扩散语言模型（MDMs）在理论上具备并行生成多个词元的潜力，可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率，导致更高推理成本 [3][6] - 消除训练数据差异后，扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率（TER）衡量文本流畅度时，MDMs可在恒定采样步数内达到理想困惑度，不受序列长度影响 [10][11] - 序列错误率（SER）评估逻辑正确性时，MDMs所需采样步数与序列长度线性相关，失去效率优势 [11] - 在GSM8K数学推理任务中，SER指标导致MDMs表现不佳，因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量（如创意写作）时，MDMs更具效率优势 [15] - 当任务要求序列级准确性（如数学推理、代码生成）时，自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域，需根据具体任务需求选择模型类型 [16]