奥特曼ChatGPT用法错了！最新研究：要求“直接回答”降低准确率，思维链提示作用也在下降

大模型提示词优化研究 - 核心观点：研究发现直接回答提示和思维链(CoT)提示在不同类型的大模型中效果差异显著，默认设置可能是最佳使用方式[1][25] 研究方法与数据集 - 使用GPQA Diamond数据集进行测试，包含研究生水平专家推理问题[5][9] - 测试了7种主流模型，分为推理模型和非推理模型两类[10] - 每种模型设置三种实验环境：强制推理、直接回答和默认模式[10] - 每个问题在每种条件下测试25次，确保结果可靠性[11] 推理模型测试结果 - CoT提示对推理模型效果有限：o3-mini准确率仅提升4.1%，时间增加80%[6][23] - Gemini 2.5 Flash使用CoT后所有指标全面下降[20] - 在平均评分上，o3-mini提升2.9个百分点，o4-mini提升3.1个百分点[21] 非推理模型测试结果 - CoT提示对非推理模型效果更复杂：平均评分和51%正确率指标提升[12] - Gemini Flash 2.0提升最显著，Claude 3.5 Sonnet次之，GPT-4o系列提升不明显[13] - 但在100%和90%正确率指标中，部分模型使用CoT后指标下降[14] - CoT增加了非推理模型答案的不稳定性[15] 时间成本分析 - 推理模型使用CoT后时间显著增加：o4-mini增加20%，o3-mini增加80%[23] - 效果较好的非推理模型时间增加更明显[24] 最佳实践建议 - 默认设置可能是最佳使用方式，因前沿模型已内置推理过程[22][25] - 强制CoT效果弱于默认模式，可能与模型内置思维链有关[17]