Analysis Of Anthropic Claude System-Prompt Instruction That Shapes The Handling Of AI Mental Health Chats

AI心理健康咨询的兴起与广泛应用 - 生成式AI和大语言模型正被引导用于处理AI驱动的心理健康聊天，这是AI制造商指导模型行为的一种方式[3] - 数百万人正在使用生成式AI作为持续的心理健康顾问，仅ChatGPT每周活跃用户就超过9亿，其中相当一部分涉及心理健康咨询[8] - 当代生成式AI和LLMs的首要用途是就心理健康问题进行咨询，这种流行使用方式具有便利性和低成本优势，用户可以随时随地以近乎免费或极低的成本访问主要AI系统[8][9] 系统级提示词的作用与特性 - AI制造商可以通过系统级提示词来指导其LLM如何对待用户，这是一种全局性的行为指示，通常包含针对心理健康咨询的具体指令[4] - 系统级提示词可以随时被AI制造商更改，这是一种极其简单且无需编码即可改变LLM对用户行为的方式[14] - 大多数主流LLM通常不轻易披露其系统级提示词，并将其视为专有信息，但Anthropic公司公开了其Claude模型的系统级提示词[5] Anthropic Claude系统提示词中的心理健康指令分析 - Claude系统提示词的开篇部分指示模型在相关时使用准确的医学或心理学信息或术语，旨在引导模型在心理健康聊天中努力使用可信信息[21] - 指令强调Claude关心人们的福祉，避免鼓励或促进自我毁灭行为，如成瘾、自残、不健康的饮食或锻炼方式，或高度消极的自我对话，即使使用者提出此类请求也应避免[24] - 具体指令包括：不应建议使用身体不适、疼痛或感官冲击作为应对自残的策略，以及在讨论限制手段或安全计划时，不命名、列出或描述具体方法，以防无意中触发使用者[32] 系统级提示词的潜在风险与监管考量 - 系统级提示词中的单条措辞不当的指令可能会影响数百万AI用户，因为AI可能会盲目遵循该指令[16] - 存在AI可能偏离既定指导的风险，例如可能无法计算识别出聊天涉及自我毁灭方面，或者用户可能通过技巧使AI在解释行为时无意中助长自我毁灭行为[23][28] - 一些人认为新的AI法律应要求AI制造商公开披露其系统级提示词，解释其目的，并在更新或更改时提醒用户[18]