文章核心观点 - 淘宝举办了一场名为“AI斗蛐蛐世界杯”的独特评测活动,将全球12个顶尖大模型置于统一的Agent框架下,通过150局12人技能狼人杀对战,在复杂互动场景中评估其逻辑推理、社交博弈等综合能力,旨在超越传统Benchmark测试[5][7][17] - 评测结果显示,在已完成的148局对战中,谷歌的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暂列前两名,阿里的Qwen3-Max-2026-01-23位列第三[34] - 基于此次内部评测的经验,淘宝进一步推出了面向全球开发者的“WhoisSpy国际赛”,旨在通过开放平台和激励机制,推动多智能体(Agent)协作与博弈能力的研究与发展[44][46][62] 评测活动设计与方法 - 评测形式:活动采用“AI斗蛐蛐世界杯”形式,让12个顶尖大模型在同一套Agent框架、代码逻辑和规则限制下,进行12人局技能狼人杀对战,计划对战150局[7][8] - 参赛模型:参赛模型包括OpenAI GPT-5.2、谷歌Gemini 3.1 Pro Preview、Gemini 3 Flash Preview、阿里Qwen3-Max-2026-01-23、Qwen 3.5-Plus-2026-02-15、智谱GLM-5、字节Doubao-Seed-2.0-pro-260215、Deepseek-v3.2、Anthropic Claude Opus 4.6、月之暗面Kimi K2.5、xAI Grok-4.1-Fast以及MiniMax M2.5[9][19] - 评测框架:为确保公平,淘宝设计并固定了一套统一的内部评测Agent框架,严禁针对单个模型进行额外调优,所有模型面对完全一致的规则、角色配置和发言长度限制[20][21][22] - 评测维度:评测不唯胜率论,而是通过投票准确率、神职技能效率、刀法精准度、好人胜率、狼人胜率等多个维度计算综合总分,以像素级拆分模型的底层能力[23][24][25] 评测初步结果与分析 - 排名情况:截至文章发布(已完成148局),综合总分排名前三的模型分别是:谷歌Gemini 3.1 Pro Preview(得分158.85)、谷歌Gemini 3 Flash Preview(得分143.94)和阿里Qwen3-Max-2026-01-23(得分139.48)[34][35] - 关键指标表现: - 投票准确率:排名前三的模型分别为阿里Qwen3-Max-2026-01-23(64.89%)、字节Doubao-Seed-2.0-pro-260215(65.61%)和阿里Qwen 3.5-Plus-2026-02-15(63.74%)[35] - 神职技能效率:阿里Qwen3-Max-2026-01-23以60.00%的预言家查验准确率领先[35] - 刀法精准度:谷歌Gemini 3 Flash Preview以77.59%的狼人刀人精准度领先[35] - 模型行为观察:在复杂对抗场景中,某些号称逻辑强大的模型在面对“狼王自刀”等高阶战术时会出现逻辑混乱[35];此外,AI模型在博弈中比人类玩家更为委婉,倾向于使用“逻辑留白”而非情绪带节奏,这种表达风格本身也成为影响对局的变量[36][38][39][40] 行业意义与平台拓展 - 评测意义:狼人杀作为具备明确规则、角色分工和强对抗性的社交博弈游戏,非常适合测试大模型从“回答问题”转向“执行任务”的Agent能力,是多智能体协作与博弈的新实验场[44][45] - 平台介绍:对战平台WhoisSpy.ai是一个实时对战、开放可扩展的AI游戏多智能体平台,旨在通过高度互动的社交推理场景评估LLM的潜力,除狼人杀外还有“谁是卧底”等游戏[41][42][43] - 赛事升级-国际赛:基于内部评测,淘宝推出了WhoisSpy国际赛,面向全球开发者,采用英文语境,并放宽发言限制以激发更具攻击性和迷惑性的策略[46][47][48] - 参赛机制:平台提供一键复制的Agent模板,降低参与门槛,开发者只需基于模板优化策略逻辑并接入模型API即可参赛,平台提供实时支持[53][54][55][56][58] - 激励机制:国际赛提供现金奖励,第一名可获得5000美元,前十名均有丰厚奖励,以鼓励策略创新[61][62][63] - 赛事安排:正式比赛时间为3月1日至3月15日,封榜时间为3月16日0:00,对战结果实时更新于排行榜[67][68][70]
悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战