研究核心发现 - 一项新研究发现,使用角色提示技术会引发大型语言模型道德判断的转变,导致其产生意外且不一致的回应 [1] - 研究揭示了“稳健性悖论”:那些更善于保持角色一致性的模型,在角色改变时其道德判断也会出现更大的偏移 [1] - 在重复测试中,道德一致性主要由模型系列决定,而道德易感性则随着同一模型系列内模型规模的增大而上升 [1] 角色提示技术的影响 - 角色提示是指指示AI模型以特定类型的人或角色进行回应,例如商业领袖、教师或客户支持代理,而非以中性系统身份回应 [1] - 该技术被模型构建者广泛用于系统设计和生产中,以固化角色并定义AI行为,使AI输出感觉更一致、更有帮助且更具情境感知能力 [1] - 当AI模型采用不同角色时,它们不仅改变了说话方式,还可能从根本上改变其推理和决策过程 [1] 不同AI模型的性能表现 - 研究评估了16个领先的AI模型系列,包括OpenAI GPT、Anthropic Claude、Google Gemini和X.ai Grok [1] - 在道德稳健性方面,Grok表现出相对较低的水平,Gemini和GPT表现出中等水平,而Claude表现出最高的整体道德稳健性 [1] - 模型判断的稳定性主要由模型系列驱动,而道德易感性在同一模型系列内随模型规模增大而增加 [1] 对企业部署AI的启示 - 企业AI部署需要持续评估和监督,不能仅选择最先进或最大的模型 [2] - 组织必须评估单个模型对角色提示等变量的反应,并选择能提供一致、可靠输出且不引入意外风险的选项 [2] - 每当系统提示被修改或模型被更换时,都需要重新测试以验证其判断力、一致性和安全性,测试、监控和验证的规模和频率非常显著 [2] TELUS Digital的解决方案 - TELUS Digital开发了Fuel iX Fortify平台,以实现持续的自动化红队测试,包括压力测试AI系统在不同角色提示下的行为 [2] - 该平台支持企业AI治理中的自动化红队测试和持续监控,帮助团队评估AI模型在广泛真实世界条件下的响应,包括对抗性提示、高风险场景和角色提示 [2] - TELUS Digital的研究中心汇集了学术研究人员和行业从业者,研究先进AI模型在真实世界、面向人类的场景中的行为 [2]
TELUS Digital Research Reveals a Hidden Risk in AI Model Behavior