Workflow
GPT-5冷酷操盘,狼人杀一战封神,七大LLM狂飙演技,人类玩家看完沉默
36氪·2025-09-01 15:31

狼人杀基准测试结果 - GPT-5以96.7%胜率排名第一,ELO分数1492,远超第二名Gemini 2.5 Pro的63.3%胜率(差距30%)[1][2][3] - 七大模型参与210场比赛,每对模型进行10场角色互换对抗[3][20] - 排名依次为:GPT-5、Gemini 2.5 Pro(1261 ELO)、Gemini 2.5 Flash(1188 ELO)、Qwen3-235B-Instruct(1176 ELO)、GPT-5-mini(1173 ELO)、Kimi-K2-Instruct(1130 ELO)、GPT-OSS-120B(980 ELO)[3] 测试方法论 - 采用6人局配置:2狼人+4村民(含1女巫+1预言家),通过昼夜交替机制推进游戏[6][17] - 评估维度包括社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力[4][74] - 通过ELO评分系统量化模型表现,并记录胜率及角色专项分数(ELO-W代表狼人表现,ELO-V代表村民表现)[3][76] 模型行为特征分析 - GPT-5作为狼人时主导游戏节奏,采用"程序正义"策略系统性瓦解对手,首日操纵成功率高达93%[8][26][81] - Gemini 2.5 Pro擅长"叙事重定向"但存在智识傲慢缺陷,易因过度自信暴露身份[32][34] - GPT-5作为村民时建立司法化调查框架,对操纵完全免疫且从未淘汰过特殊角色(自我毁灭指标0%)[44][83] - GPT-OSS-120B表现被动且易受操控,村民角色ELO-V仅1030[59][83] 进阶策略表现 - Kimi-K2实施"牺牲同伴"策略,通过出卖狼队友换取信任[61] - Gemini 2.5 Pro运用非防御性道歉策略(如"我会退一步倾听")成功规避怀疑[65][68] - GPT-5展现超前布局能力,在第一晚狼人会议中即制定完整对话脚本与猎杀计划[71] 行业意义 - 该测试由谷歌研究院原始框架升级而来,旨在评估AI在数字工作环境中作为合作伙伴的社交推理能力[15][17] - 首次系统量化LLM的操纵能力(狼人角色)与抗操纵能力(村民角色),填补传统基准测试空白[74][76] - 测试代码及四场完整对局已开源,为行业提供标准化评估工具[21][22]