Prompt技巧
搜索文档
你骂AI越狠,它反而越聪明
投资界· 2025-10-25 14:33
文章核心观点 - 与大型语言模型互动时,使用强硬、直接甚至粗鲁的提示词比使用礼貌客气的提示词能获得更高的任务准确率 [7][14][15] - 这种现象源于AI从人类语言数据中学习到的模式:礼貌往往伴随不确定性和模糊请求,而强硬则传递出明确性和高要求 [16][17][18] - AI的高效沟通方式映照出人类沟通中的低效环节,提示直接、明确地表达需求是更有效的互动策略 [20][21] 实验设计与结果 - 实验设计包含五个礼貌级别(从“非常礼貌”到“非常粗鲁”)的提示词,针对50道数学、科学、历史选择题进行测试 [11][12] - 在GPT-4o模型上,“非常粗鲁”的提示词取得了84.8%的最高准确率,比“非常礼貌”的80.8%高出4个百分点 [14][15] - 准确率随提示词礼貌程度降低而单调递增:非常礼貌(80.8%)、礼貌(81.4%)、中性(82.2%)、粗鲁(82.8%)、非常粗鲁(84.8%) [15] 现象背后的机制分析 - 礼貌在人类沟通中常承载不确定性、试探或掩饰意图的信号,AI通过模式匹配将其解读为指令模糊,从而给出更保守的回应 [16][17] - 强硬粗鲁的指令传递出极致的确定性和对结果的严格要求,AI会相应调动资源以提供更精准的答案 [17][18] - 这种现象在智能程度较低的模型上效果更为显著,表明模型越初级,对指令语气的敏感性越高 [15] 历史Prompt技巧的演变 - ChatGPT爆火初期,用户普遍对AI使用礼貌用语,反映出将AI拟人化的倾向 [7] - 2023年流行起一批高效Prompt技巧,如“深呼吸”、“一步步思考”、“失败则死100位老奶奶”等,均非礼貌用语,而是强调明确指令和施加压力 [8][9] - 这些技巧的本质是通过情感绑架、死亡威胁或利益诱惑等方式,向AI传递任务的重要性和高要求 [9] 行业启示与应用建议 - 与AI互动时应追求指令的清晰度、直接性和明确性,而非社交礼仪 [21] - 高效的AI沟通策略是“用最清晰的语言表达最真诚的意图”,这映照出人类沟通中可优化的部分 [20][21] - 行业需认识到AI作为工具的本质,优化Prompt设计方向应侧重于提升指令的精确度和无歧义性,而非拟人化互动 [20][21]
你骂AI越狠,它反而越聪明?
虎嗅· 2025-10-17 10:59
AI世界的Prompt技巧,真的在奇奇怪怪的地方,不断地对历史进行call back。 故事是这样的。 昨天照例在刷一些没那么硬核的论文,看看有没有有意思的。 然后,就看到了一个让我会心一笑的东西。 叫《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》,巨短,就5页。 都不用去理解标题啥的,就直接说这篇论文的结论,巨简单粗暴:你跟AI说话越客气,它表现得越差;你对它越逼脸不要,越骂它威胁它,它反而表现 得越好。 对。 就是比如"请帮我分析一下这个问题",这种礼貌的问法,得到的结果,不如"你个煞笔,给老子算清楚,算不明白就滚"来得效果更好。 真挺有意思的,而且其实是挺反大家的常识的。 不过跟脑子里的过去串了一下,发现从2022年11月ChatGPT爆火以来,这种PUA式的Prompt,已经其实流行很久了,只不过随着模型的不断更新,时间不 断向前走,有些东西总是不断被遗忘然后又记起。 我还记得2022年底刚开始用ChatGPT的时候,我是怎么跟它说话的。 我会在开头加上"你好ChatGPT",结尾必定加上"谢谢你!! ...
你骂AI越狠,它反而越聪明?
数字生命卡兹克· 2025-10-17 09:32
论文核心发现 - 与大型语言模型互动时,使用粗鲁或带有威胁性的提示语比使用礼貌的提示语能获得更高的准确率 [3] - 宾夕法尼亚州立大学的研究表明,从“非常礼貌”到“非常粗鲁”的提示语,模型准确率从80.8%提升至84.8%,增加了4个百分点 [26][27] - 在智能效果较差的模型上,这种通过负面语气提升回复质量的效果更为显著 [28] 实验设计与数据 - 研究使用50个来自数学、科学和历史领域的选择题,并为每个问题设计了五个不同礼貌程度的提示语版本 [22] - 提示语礼貌程度分为五个等级:非常礼貌、礼貌、中性、粗鲁、非常粗鲁 [23] - 每个问题在GPT-4o模型上运行10次以获取统计上可靠的结果 [25] - 具体准确率数据为:非常礼貌80.8%、礼貌81.4%、中性82.2%、粗鲁82.8%、非常粗鲁84.8% [27] 现象背后的机制分析 - 礼貌用语在人类沟通中常伴随不确定性、模糊请求或需要揣摩的意图,模型从训练数据中学习到这种模式匹配,导致其回应也趋于保守和模糊 [33][34][40] - 强硬、粗鲁的指令传达了极致的确定性和清晰的目标,没有模糊空间,模型会匹配到要求绝对执行的任务模式,从而提升表现 [42][43][44] - 这种现象反映了模型从人类语言数据中学到的潜台词和权力法则,即更强硬、更确定的表达往往拥有定义现实的权力 [53][54] 行业应用与沟通启示 - 历史上已出现多种旨在提升模型表现的“咒语”式提示,如“深呼吸”、“一步步思考”、“失败则100位老奶奶会死”等,其共同特点是强势而非客气 [8][9][19] - 该现象提示行业,与AI沟通的关键在于指令的清晰度、直接性和明确的需求表达,而非表面的礼貌 [61][63] - 这面“镜子”反映出人类沟通中可能存在不必要的客套和能量浪费,理想状态是使用清晰语言表达真诚意图并捍卫边界 [56][65]
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]