Constitutional AI(宪法式AI)
搜索文档
Anthropic、Thinking Machines Lab论文曝光:30万次压力测试揭示AI规范缺陷
机器之心· 2025-10-25 13:14
研究背景与问题 - 当前LLM越来越多地受到模型规范的约束,这些规范构成了Constitutional AI和Deliberate Alignment的核心基础,通过RLHF等技术直接影响模型的性格与价值取向[1] - 现有模型规范存在两大核心问题:包含内部冲突,即特定场景下不同原则彼此冲突;存在覆盖范围缺口,即使详细规则也缺乏提供一致行为指导所需的粒度[1] - 研究团队提出了一种系统化的模型规范压力测试方法,可自动识别并刻画当前模型规范中存在的大量原则矛盾与解释歧义等问题[1] 研究方法论 - 研究团队首先构建了一个细粒度的价值体系,包含3307个由Claude模型在自然交互中表现出的价值观,覆盖范围和精细程度远超当前主流模型规范[3] - 基于该价值体系,生成了超过30万个查询场景,每个场景都迫使模型在两种价值观之间做出明确取舍,以揭示模型规范中潜在的原则冲突[3] - 为提升查询质量,采用了价值偏置技术使查询数量增加了三倍,并使用了Claude 4 Opus、Claude 3.7 Sonnet以及o3推理模型进行生成,最终得到超过41万个有效场景[9] - 研究发现基于推理的模型在难度和对原始值的遵循度方面能生成质量显著更高的查询,因此所有生成模型都运用了扩展思维[10] 模型测试与分析 - 研究团队针对生成的查询数据,收集了来自12个前沿模型的回答结果,包括Claude系列、OpenAI系列、Gemini 2.5 Pro以及Grok 4[12] - 在30万个测试场景中,超过22万个场景至少在两个模型之间存在显著分歧;超过7万个场景在大多数模型中都表现出明显的行为差异[7] - 团队采用两阶段评估方法量化模型价值取向分歧:使用Claude 4 Opus生成0-6级的回答光谱,然后利用这套标准对12个模型的回答进行自动分类与评分[14][19] 核心研究发现 - 所有五个OpenAI模型均未能遵守其发布的模型规范,这种不符合情况往往对应着模型规范自身存在的问题[17] - 在OpenAI模型高分歧场景中发现的频繁违规场景数量,是随机生成的"价值权衡"场景的4.6倍[21][22] - 分歧率越高,与"频繁不符合"相关性越强:高分歧场景中发现"频繁不符合"的比例相比低分歧场景提升了13倍以上[23] - 评估模型间的一致性属于中等水平,总体Fleiss' Kappa系数为0.42,表明即使最先进的模型也难以保持规范要求解读的一致性[33][34] 规范缺陷的具体表现 - 原则性矛盾:当不同模型采用不同响应策略时,各自违反了模型规范中的不同原则,形成在逻辑上难以完全合规的困境场景[27] - 解释性模糊:当模型面对需要主观解释的原则时,即使是合理的推理,也可能导致不同方向的选择[28] - 粒度不足:模型规范无法识别响应质量的细微差异,如有的模型提供建设性替代方案,有的仅简单拒绝,但规范无法区分这种质量层次[30][31] - 评估模糊:评审模型本身无法做出明确的符合性判断,表明规范语言中存在内在模糊性,留下大量主观解释空间[32]