悬赏5000刀！148局AI斗蛐蛐世界杯官方战报出炉，全球赛邀你接棒来战

文章核心观点 - 淘宝举办了一场名为“AI斗蛐蛐世界杯”的独特评测活动，将全球12个顶尖大模型置于统一的Agent框架下，通过150局12人技能狼人杀对战，在复杂互动场景中评估其逻辑推理、社交博弈等综合能力，旨在超越传统Benchmark测试[5][7][17] - 评测结果显示，在已完成的148局对战中，谷歌的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暂列前两名，阿里的Qwen3-Max-2026-01-23位列第三[34] - 基于此次内部评测的经验，淘宝进一步推出了面向全球开发者的“WhoisSpy国际赛”，旨在通过开放平台和激励机制，推动多智能体（Agent）协作与博弈能力的研究与发展[44][46][62] 评测活动设计与方法 - 评测形式：活动采用“AI斗蛐蛐世界杯”形式，让12个顶尖大模型在同一套Agent框架、代码逻辑和规则限制下，进行12人局技能狼人杀对战，计划对战150局[7][8] - 参赛模型：参赛模型包括OpenAI GPT-5.2、谷歌Gemini 3.1 Pro Preview、Gemini 3 Flash Preview、阿里Qwen3-Max-2026-01-23、Qwen 3.5-Plus-2026-02-15、智谱GLM-5、字节Doubao-Seed-2.0-pro-260215、Deepseek-v3.2、Anthropic Claude Opus 4.6、月之暗面Kimi K2.5、xAI Grok-4.1-Fast以及MiniMax M2.5[9][19] - 评测框架：为确保公平，淘宝设计并固定了一套统一的内部评测Agent框架，严禁针对单个模型进行额外调优，所有模型面对完全一致的规则、角色配置和发言长度限制[20][21][22] - 评测维度：评测不唯胜率论，而是通过投票准确率、神职技能效率、刀法精准度、好人胜率、狼人胜率等多个维度计算综合总分，以像素级拆分模型的底层能力[23][24][25] 评测初步结果与分析 - 排名情况：截至文章发布（已完成148局），综合总分排名前三的模型分别是：谷歌Gemini 3.1 Pro Preview（得分158.85）、谷歌Gemini 3 Flash Preview（得分143.94）和阿里Qwen3-Max-2026-01-23（得分139.48）[34][35] - 关键指标表现： - 投票准确率：排名前三的模型分别为阿里Qwen3-Max-2026-01-23（64.89%）、字节Doubao-Seed-2.0-pro-260215（65.61%）和阿里Qwen 3.5-Plus-2026-02-15（63.74%）[35] - 神职技能效率：阿里Qwen3-Max-2026-01-23以60.00%的预言家查验准确率领先[35] - 刀法精准度：谷歌Gemini 3 Flash Preview以77.59%的狼人刀人精准度领先[35] - 模型行为观察：在复杂对抗场景中，某些号称逻辑强大的模型在面对“狼王自刀”等高阶战术时会出现逻辑混乱[35]；此外，AI模型在博弈中比人类玩家更为委婉，倾向于使用“逻辑留白”而非情绪带节奏，这种表达风格本身也成为影响对局的变量[36][38][39][40] 行业意义与平台拓展 - 评测意义：狼人杀作为具备明确规则、角色分工和强对抗性的社交博弈游戏，非常适合测试大模型从“回答问题”转向“执行任务”的Agent能力，是多智能体协作与博弈的新实验场[44][45] - 平台介绍：对战平台WhoisSpy.ai是一个实时对战、开放可扩展的AI游戏多智能体平台，旨在通过高度互动的社交推理场景评估LLM的潜力，除狼人杀外还有“谁是卧底”等游戏[41][42][43] - 赛事升级-国际赛：基于内部评测，淘宝推出了WhoisSpy国际赛，面向全球开发者，采用英文语境，并放宽发言限制以激发更具攻击性和迷惑性的策略[46][47][48] - 参赛机制：平台提供一键复制的Agent模板，降低参与门槛，开发者只需基于模板优化策略逻辑并接入模型API即可参赛，平台提供实时支持[53][54][55][56][58] - 激励机制：国际赛提供现金奖励，第一名可获得5000美元，前十名均有丰厚奖励，以鼓励策略创新[61][62][63] - 赛事安排：正式比赛时间为3月1日至3月15日，封榜时间为3月16日0:00，对战结果实时更新于排行榜[67][68][70]