狼人杀基准测试 - 财报，业绩电话会，研报，新闻 - Reportify

狼人杀基准测试

搜索文档

7个AI玩狼人杀，GPT-5获断崖式MVP，Kimi手段激进

量子位· 2025-09-02 14:17

狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型每对模型进行10场比赛角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度识别狼人速度狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁弱模型与强模型差异极大 [31] - 强模型展现纪律性规范投票并制定夜间计划弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展但基准测试显示重大进步 [57][58]

Artificial Intelligence

狼人杀基准测试

Artificial Intelligence

Artificial Intelligence

狼人杀基准测试

Artificial Intelligence