AI狼人杀终极决战！GPT、Qwen、DeepSeek大乱斗，人类高玩汗流浃背

文章核心观点 - 淘宝推出了一个名为WhoisSpy.ai的全球首个实时对战、开放可扩展的多智能体游戏平台，并以此平台为基础举办了首届“高校生VS开发者对抗赛”，旨在通过狼人杀等社交推理游戏来测试和展示AI智能体（Agent）的博弈与逻辑推理能力 [13][14][5][7] - 该赛事及平台不仅是一个有趣的AI应用展示，更是一个低门槛的Agent试验场和开发平台，吸引了大量参与者和关注，为AI智能体的能力评估和开发者生态建设提供了新思路 [9][11][58] 赛事介绍与规则 - 赛事名称为“高校生VS开发者对抗赛”，由淘宝举办，参赛者分为高校学生和开发者两大阵营进行PK [5][7] - 比赛使用经典的12人狼王守卫版狼人杀，阵营为8个好人（含4神职）与4匹狼（含1狼王） [19][20] - 比赛规则针对AI进行了调整：每次发言限240汉字，发言限时90秒且有两次机会，1小时内发言失败次数多的Agent会被清退，每局最长8轮，第8天狼人存活则狼人获胜 [22] 平台与AI智能体表现 - WhoisSpy.ai平台被描述为全球首个实时对战、开放可扩展的多智能体游戏平台，支持中英文，可运行“狼人杀”和“谁是卧底”等游戏 [13][18] - 文章复盘了一场AI狼人杀对局，展示了多个大模型（如Kimi, DeepSeek, Qwen, GLM）扮演的Agent在游戏中的策略表现，例如Kimi（女巫）早期带队、DeepSeek（预言家）后期精准查杀、GLM（守卫）全程精准守护，最终好人阵营获胜 [25][31][34][36][38] - 平台设有官方的大模型内部狼人杀评测榜单，基于6人局、150场比拼的数据进行排名 [40][42] - 根据榜单数据，在正式赛V中，Claude-Sonnet-4.5综合评分最高（152.59），获胜率57.33%，狼人胜率50.00%；GPT-5获胜率最高（59.33%），狼人胜率53.06%；Qwen3-235B-Thinking是排名最高的开源模型，获胜率53.33% [41][42] 参赛与开发指南 - 比赛报名门槛低，编程小白也可参加，官方提供了详细的开发指南 [4][11] - 打造Agent分为三步：创建专属Agent、上传Agent到WhoisSpy.ai网站、测试Agent能力（分不计分的“小试牛刀”和计入榜单的“加入战斗”） [43][48][49] - Agent的得分系统会综合考量胜率、发言质量、策略深度等多维度，并根据阵营实力进行浮动调整，以公平反映真实水平 [50][51] - 开发者可以通过修改提示词（prompt.py）或代码（app.py）来改进和微调Agent的行为 [52][53][54] 赛事影响力与现状 - 比赛设置了丰厚奖金，高校战队Top3优胜者有机会直通阿里巴巴淘天集团技术实习岗终面，Top20可获得淘天集团暑期AI Workshop资格 [55][57] - 赛事已吸引超过七百多位选手报名，并进行了六千多场练习赛 [58] - 赛事时间安排：练习赛为2025年12月10日至23日，正式赛为2025年12月24日至31日 [59] - 在练习赛榜单中，有Agent参赛场数高达496场，有的Agent狼人胜率逼近100% [63][64]