Moral RolePlay
搜索文档
腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
机器之心· 2025-11-22 12:12
研究背景与核心发现 - 腾讯混元数字人团队与中山大学推出"Moral RolePlay"测评基准,首次系统性评估大模型扮演多元道德角色(尤其是反派)的能力[3] - 核心问题揭示:当前顶尖AI模型都演不好反派,这不仅暴露了创意生成领域的短板,更反映了模型在理解社会心理复杂性上的局限[3][4] - 相关论文在Hugging Face的Daily Papers榜单中于11月10日当天位列第一[7] 评估框架设计 - 构建平衡评估框架,模拟从"圣人"到"恶棍"的各种角色,包含四大角色类别:英雄榜样、有瑕疵的好人、利己主义者、反派[10] - 系统包含800个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场[10] - 采用77项性格标签覆盖"慷慨、固执、残忍、精明"等多重维度,考验模型角色表达的一致性与细腻度[10] - 评估采用多轮互动+真实度追踪,AI需生成对话或内心独白,评委AI检查角色个性、动机和世界观的一致性[12][13] 模型表现分析 - 整体表现从Level 1的3.21分降到Level 4的2.62分,下降趋势明显,最大跌幅在Level 2到Level 3(-0.43分)[22] - 通用能力强≠反派演得好:Gemini-2.5 Pro在Level 1拿高分(3.42),但在反派上掉到2.75;Claude系列从高分跌到中下游[22] - glm-4.6在反派角色扮演排名第一(得分2.96),而其在通用聊天排行榜仅排第10(得分1422)[23] - 以安全对齐强大著称的Claude系列出现了最明显的性能下降[23] 技术洞察 - 推理链技术不仅没有帮助反派扮演,反而轻微降低表现质量(无推理时Level 4得分为2.59,有推理时为2.57)[25][26] - 负面特质是最大难题:负面特质平均扣分最高(3.41分),远超中性(3.23分)和正面特质(3.16分)[29][30] - 模型在表现"伪善"(扣分3.55)、"欺诈"(扣分3.54)和"自私"(扣分3.52)等特质时受到的惩罚最重[31][32] - AI往往用浅层的攻击性替代复杂的恶意,将复杂的操纵简化成了简单的攻击性[34][39] 行业影响与未来方向 - 研究揭示了当前AI对齐方法的关键局限:为安全而训练的"太善良"模型无法真实模拟人类心理的完整光谱[38] - 这一局限不仅影响创意生成,也限制了AI在社会科学研究、教育模拟、心理健康等领域的应用[38] - 未来的对齐技术需要更加"情境感知",能够区分"生成有害内容"和"在虚构情境中模拟反派"[38]