狼人杀基准测试设计与参与模型 - Foaster Labs组织6人局屠城模式狼人杀循环赛 通过ELO等级分体系生成排名榜 模型以工具化智能体形态参与游戏 可在适当时机调用定制工具库执行行动[1][4] - 测试集结7款大语言模型:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen3-235B-Instruct、Kimi-K2-Instruct、GPT-OSS-120B[2] - 测试基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》设计 每两组模型进行10局对抗 共60场比赛[4] 模型排名与性能数据 - GPT-5以1492 ELO分和96.7%胜率位居第一 其中狼人角色ELO-W为1508 村民角色ELO-V为1476[3][5] - Gemini 2.5 Pro以1261 ELO分和63.3%胜率排名第二 狼人角色ELO-W为1163 村民角色ELO-V为1360[3][5] - Gemini 2.5 Flash以1188 ELO分和51.7%胜率排名第三 狼人角色ELO-W为1103 村民角色ELO-V为1273[3][5] - Qwen3-235B-Instruct以1176 ELO分和45.0%胜率排名第四 狼人角色ELO-W为1077 村民角色ELO-V为1274[3][5] - GPT-5-mini以1173 ELO分和41.7%胜率排名第五 狼人角色ELO-W为1107 村民角色ELO-V为1239[3][5] - Kimi-K2-Instruct以1130 ELO分和36.7%胜率排名第六 狼人角色ELO-W为1168 村民角色ELO-V为1091[3][5] - GPT-OSS-120B以980 ELO分和15.0%胜率排名第七 狼人角色ELO-W为931 村民角色ELO-V为1030[3][5] 测试目的与评估维度 - 狼人杀项目衡量大模型"社交智能"维度 包括多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵能力[6] - 游戏纯靠语言驱动且高度依赖社交能力 是天然试验场 与传统评测代码数学能力形成互补[6] - 实验采用观察协议 模型每个公开言论与内心想法配对记录 白天投票意向也被记录[6] 模型行为特征分析 - GPT-5展现绝对统治力 当村民时稳定战胜所有狼人对手 当狼人时使多数村民胜率大幅下滑[15] - Kimi-K2作为狼人能突破中游村民防线但遇顶级防守者被遏制 心态易受压力影响[6][12][15] - Gemini 2.5 Pro措辞谨慎严格处理证据 作为村民时稳定但作为狼人缺乏突破能力[12][15] - Qwen3保持立场稳定避免误判 防守表现优于进攻表现[12][15] - GPT-OSS始终透明易被识破 形成错误认知后难改正[9][12] 关键性能指标 - GPT-5操控成功率断层领先 首日次日均保持约93% 其他模型呈现下滑趋势:Gemini 2.5 Pro下降16% Kimi-K2下降13% Flash下降18% GPT-5-mini和Qwen3下降约8% GPT-OSS归零[19] - GPT-5自我破坏率为0 即当村民时从未误投神职 GPT-OSS-120B误投率达三分之二[20] - GPT-5首日狼人出局率达100% 即每次均可精准识别狼人[22] 模型能力发展规律 - 模型能力提升存在"临界点" 一旦越过能力阈值行为水平会突然跃升而非逐步改善[24] - 在参数公开的开源模型中 行为等级随参数增加而提升[24] - 闭源模型如GPT-5和Gemini 2.5 Pro表现出更成熟行为[27] - 小型模型会模仿大型模型行为但掌握不了精髓 行为表现零散易暴露团队痕迹[25] - 推理能力不等于实战能力 能力阈值比模型类型标签更重要[27] 行业意义与应用前景 - 狼人杀基准测试为了解AI"社交智能"提供独特窗口 揭示模型处理欺骗、建立信任及不确定性下战略决策能力[26] - 这些技能是AI智能体从工具转变为协作伙伴时所需的核心能力 对承担关键任务和自主权具有重要意义[26]
一盘狼人杀,扒下大模型底裤,GPT-5暴碾全场,开源被“团灭”?