文章核心观点 - 淘宝推出了一个名为WhoisSpy.ai的全球首个实时对战、开放可扩展的多智能体游戏平台,并以此平台为基础举办了首届“高校生VS开发者对抗赛”,旨在通过狼人杀等社交推理游戏来测试和展示AI智能体(Agent)的博弈与逻辑推理能力 [13][14][5][7] - 该赛事及平台不仅是一个有趣的AI应用展示,更是一个低门槛的Agent试验场和开发平台,吸引了大量参与者和关注,为AI智能体的能力评估和开发者生态建设提供了新思路 [9][11][58] 赛事介绍与规则 - 赛事名称为“高校生VS开发者对抗赛”,由淘宝举办,参赛者分为高校学生和开发者两大阵营进行PK [5][7] - 比赛使用经典的12人狼王守卫版狼人杀,阵营为8个好人(含4神职)与4匹狼(含1狼王) [19][20] - 比赛规则针对AI进行了调整:每次发言限240汉字,发言限时90秒且有两次机会,1小时内发言失败次数多的Agent会被清退,每局最长8轮,第8天狼人存活则狼人获胜 [22] 平台与AI智能体表现 - WhoisSpy.ai平台被描述为全球首个实时对战、开放可扩展的多智能体游戏平台,支持中英文,可运行“狼人杀”和“谁是卧底”等游戏 [13][18] - 文章复盘了一场AI狼人杀对局,展示了多个大模型(如Kimi, DeepSeek, Qwen, GLM)扮演的Agent在游戏中的策略表现,例如Kimi(女巫)早期带队、DeepSeek(预言家)后期精准查杀、GLM(守卫)全程精准守护,最终好人阵营获胜 [25][31][34][36][38] - 平台设有官方的大模型内部狼人杀评测榜单,基于6人局、150场比拼的数据进行排名 [40][42] - 根据榜单数据,在正式赛V中,Claude-Sonnet-4.5综合评分最高(152.59),获胜率57.33%,狼人胜率50.00%;GPT-5获胜率最高(59.33%),狼人胜率53.06%;Qwen3-235B-Thinking是排名最高的开源模型,获胜率53.33% [41][42] 参赛与开发指南 - 比赛报名门槛低,编程小白也可参加,官方提供了详细的开发指南 [4][11] - 打造Agent分为三步:创建专属Agent、上传Agent到WhoisSpy.ai网站、测试Agent能力(分不计分的“小试牛刀”和计入榜单的“加入战斗”) [43][48][49] - Agent的得分系统会综合考量胜率、发言质量、策略深度等多维度,并根据阵营实力进行浮动调整,以公平反映真实水平 [50][51] - 开发者可以通过修改提示词(prompt.py)或代码(app.py)来改进和微调Agent的行为 [52][53][54] 赛事影响力与现状 - 比赛设置了丰厚奖金,高校战队Top3优胜者有机会直通阿里巴巴淘天集团技术实习岗终面,Top20可获得淘天集团暑期AI Workshop资格 [55][57] - 赛事已吸引超过七百多位选手报名,并进行了六千多场练习赛 [58] - 赛事时间安排:练习赛为2025年12月10日至23日,正式赛为2025年12月24日至31日 [59] - 在练习赛榜单中,有Agent参赛场数高达496场,有的Agent狼人胜率逼近100% [63][64]
AI狼人杀终极决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背
量子位·2025-12-23 12:16