Workflow
直接回答
icon
搜索文档
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 11:52
大模型提示词优化研究 - 核心观点:研究发现直接回答提示和思维链(CoT)提示在不同类型的大模型中效果差异显著,默认设置可能是最佳使用方式[1][25] 研究方法与数据集 - 使用GPQA Diamond数据集进行测试,包含研究生水平专家推理问题[5][9] - 测试了7种主流模型,分为推理模型和非推理模型两类[10] - 每种模型设置三种实验环境:强制推理、直接回答和默认模式[10] - 每个问题在每种条件下测试25次,确保结果可靠性[11] 推理模型测试结果 - CoT提示对推理模型效果有限:o3-mini准确率仅提升4.1%,时间增加80%[6][23] - Gemini 2.5 Flash使用CoT后所有指标全面下降[20] - 在平均评分上,o3-mini提升2.9个百分点,o4-mini提升3.1个百分点[21] 非推理模型测试结果 - CoT提示对非推理模型效果更复杂:平均评分和51%正确率指标提升[12] - Gemini Flash 2.0提升最显著,Claude 3.5 Sonnet次之,GPT-4o系列提升不明显[13] - 但在100%和90%正确率指标中,部分模型使用CoT后指标下降[14] - CoT增加了非推理模型答案的不稳定性[15] 时间成本分析 - 推理模型使用CoT后时间显著增加:o4-mini增加20%,o3-mini增加80%[23] - 效果较好的非推理模型时间增加更明显[24] 最佳实践建议 - 默认设置可能是最佳使用方式,因前沿模型已内置推理过程[22][25] - 强制CoT效果弱于默认模式,可能与模型内置思维链有关[17]