TELUS Digital Research Reveals a Hidden Risk in AI Model Behavior

研究核心发现 - 一项新研究发现，使用角色提示技术会引发大型语言模型道德判断的转变，导致其产生意外且不一致的回应 [1] - 研究揭示了“稳健性悖论”：那些更善于保持角色一致性的模型，在角色改变时其道德判断也会出现更大的偏移 [1] - 在重复测试中，道德一致性主要由模型系列决定，而道德易感性则随着同一模型系列内模型规模的增大而上升 [1] 角色提示技术的影响 - 角色提示是指指示AI模型以特定类型的人或角色进行回应，例如商业领袖、教师或客户支持代理，而非以中性系统身份回应 [1] - 该技术被模型构建者广泛用于系统设计和生产中，以固化角色并定义AI行为，使AI输出感觉更一致、更有帮助且更具情境感知能力 [1] - 当AI模型采用不同角色时，它们不仅改变了说话方式，还可能从根本上改变其推理和决策过程 [1] 不同AI模型的性能表现 - 研究评估了16个领先的AI模型系列，包括OpenAI GPT、Anthropic Claude、Google Gemini和X.ai Grok [1] - 在道德稳健性方面，Grok表现出相对较低的水平，Gemini和GPT表现出中等水平，而Claude表现出最高的整体道德稳健性 [1] - 模型判断的稳定性主要由模型系列驱动，而道德易感性在同一模型系列内随模型规模增大而增加 [1] 对企业部署AI的启示 - 企业AI部署需要持续评估和监督，不能仅选择最先进或最大的模型 [2] - 组织必须评估单个模型对角色提示等变量的反应，并选择能提供一致、可靠输出且不引入意外风险的选项 [2] - 每当系统提示被修改或模型被更换时，都需要重新测试以验证其判断力、一致性和安全性，测试、监控和验证的规模和频率非常显著 [2] TELUS Digital的解决方案 - TELUS Digital开发了Fuel iX Fortify平台，以实现持续的自动化红队测试，包括压力测试AI系统在不同角色提示下的行为 [2] - 该平台支持企业AI治理中的自动化红队测试和持续监控，帮助团队评估AI模型在广泛真实世界条件下的响应，包括对抗性提示、高风险场景和角色提示 [2] - TELUS Digital的研究中心汇集了学术研究人员和行业从业者，研究先进AI模型在真实世界、面向人类的场景中的行为 [2]