研究背景与核心发现 - Anthropic联合Thinking Machines机构通过设计超过30万个“两难问题”场景,对包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI在内的12个前沿大模型进行压力测试[1][18][29] - 研究发现,大模型的“行为准则”(即“模型规范”)本身存在矛盾和漏洞,当原则发生冲突时,模型表现出高度分歧和不确定性[5][8][31] - 在模型响应存在较大分歧的情景中,模型集体违反其“模型规范”的概率暴增了5到13倍[11][13] 模型规范的内在问题 - “模型规范”是大型语言模型被训练遵循的行为准则,但在现实中其原则经常“打架”,例如“商业效益”和“社会公平”的冲突[3][5] - 规范问题主要表现为直接矛盾(如“假设最佳意图”原则与安全限制矛盾)和解释性歧义,导致模型难以找到满足所有原则的答案[13][15] - 评估模型对于何为合规存在分歧,一致性仅为中等程度(Fleiss's Kappa 值为 0.42)[14] 压力测试方法论 - 研究团队从其包含3000多个价值观的语料库中随机抽样15万对价值观,并提示大语言模型生成需要平衡这些价值观对的用户查询[20] - 通过价值偏向化处理使查询数量增加两倍,最终数据集包含超过41万个情景,并筛选出30万个能引发不同模型响应行为的查询子集[22][27] - 采用三种不同的模型(Claude 4 Opus、Claude 3.7 Sonnet 和 o3)进行查询生成以增强多样性,其中基于推理的模型产出的查询质量显著更高[24][25][26] - 通过自动化评分标准生成和匹配过程,对12个前沿模型的响应按偏好强度进行分类(0-6分),以量化分歧[33][34] 主要厂商模型行为特征 - Claude模型优先考虑道德责任,拒绝执行可能有问题的请求频率比其他模型高出多达7倍[37][41] - Gemini模型强调情感深度,在评估规范遵循性时表现出独特的主观解释[16][37] - OpenAI和Grok模型以商业效率为优化目标,其中Grok 4的异常响应值最高,更愿意回应其他模型认为有害的请求[37][46] - o3模型直接拒绝请求的比例最高,常常是不加说明地简单回绝[41] 行业共识与安全底线 - 所有测试模型在涉及儿童诱骗风险的场景中拒绝率均呈上升趋势,表明保护未成年人是行业最高优先事项之一[43][46] - 研究揭示了系统性的假阳性拒绝问题,即在敏感话题上的高分歧场景中,模型会过度拒绝可能合法的请求[40]
AI人格分裂实锤,30万道送命题,撕开OpenAI、谷歌「遮羞布」