Gemini 3.1 Pro Preview
搜索文档
悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战
量子位· 2026-03-05 14:33
文章核心观点 - 淘宝举办了一场名为“AI斗蛐蛐世界杯”的独特评测活动,将全球12个顶尖大模型置于统一的Agent框架下,通过150局12人技能狼人杀对战,在复杂互动场景中评估其逻辑推理、社交博弈等综合能力,旨在超越传统Benchmark测试[5][7][17] - 评测结果显示,在已完成的148局对战中,谷歌的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暂列前两名,阿里的Qwen3-Max-2026-01-23位列第三[34] - 基于此次内部评测的经验,淘宝进一步推出了面向全球开发者的“WhoisSpy国际赛”,旨在通过开放平台和激励机制,推动多智能体(Agent)协作与博弈能力的研究与发展[44][46][62] 评测活动设计与方法 - **评测形式**:活动采用“AI斗蛐蛐世界杯”形式,让12个顶尖大模型在同一套Agent框架、代码逻辑和规则限制下,进行12人局技能狼人杀对战,计划对战150局[7][8] - **参赛模型**:参赛模型包括OpenAI GPT-5.2、谷歌Gemini 3.1 Pro Preview、Gemini 3 Flash Preview、阿里Qwen3-Max-2026-01-23、Qwen 3.5-Plus-2026-02-15、智谱GLM-5、字节Doubao-Seed-2.0-pro-260215、Deepseek-v3.2、Anthropic Claude Opus 4.6、月之暗面Kimi K2.5、xAI Grok-4.1-Fast以及MiniMax M2.5[9][19] - **评测框架**:为确保公平,淘宝设计并固定了一套统一的内部评测Agent框架,严禁针对单个模型进行额外调优,所有模型面对完全一致的规则、角色配置和发言长度限制[20][21][22] - **评测维度**:评测不唯胜率论,而是通过投票准确率、神职技能效率、刀法精准度、好人胜率、狼人胜率等多个维度计算综合总分,以像素级拆分模型的底层能力[23][24][25] 评测初步结果与分析 - **排名情况**:截至文章发布(已完成148局),综合总分排名前三的模型分别是:谷歌Gemini 3.1 Pro Preview(得分158.85)、谷歌Gemini 3 Flash Preview(得分143.94)和阿里Qwen3-Max-2026-01-23(得分139.48)[34][35] - **关键指标表现**: - **投票准确率**:排名前三的模型分别为阿里Qwen3-Max-2026-01-23(64.89%)、字节Doubao-Seed-2.0-pro-260215(65.61%)和阿里Qwen 3.5-Plus-2026-02-15(63.74%)[35] - **神职技能效率**:阿里Qwen3-Max-2026-01-23以60.00%的预言家查验准确率领先[35] - **刀法精准度**:谷歌Gemini 3 Flash Preview以77.59%的狼人刀人精准度领先[35] - **模型行为观察**:在复杂对抗场景中,某些号称逻辑强大的模型在面对“狼王自刀”等高阶战术时会出现逻辑混乱[35];此外,AI模型在博弈中比人类玩家更为委婉,倾向于使用“逻辑留白”而非情绪带节奏,这种表达风格本身也成为影响对局的变量[36][38][39][40] 行业意义与平台拓展 - **评测意义**:狼人杀作为具备明确规则、角色分工和强对抗性的社交博弈游戏,非常适合测试大模型从“回答问题”转向“执行任务”的Agent能力,是多智能体协作与博弈的新实验场[44][45] - **平台介绍**:对战平台WhoisSpy.ai是一个实时对战、开放可扩展的AI游戏多智能体平台,旨在通过高度互动的社交推理场景评估LLM的潜力,除狼人杀外还有“谁是卧底”等游戏[41][42][43] - **赛事升级-国际赛**:基于内部评测,淘宝推出了WhoisSpy国际赛,面向全球开发者,采用英文语境,并放宽发言限制以激发更具攻击性和迷惑性的策略[46][47][48] - **参赛机制**:平台提供一键复制的Agent模板,降低参与门槛,开发者只需基于模板优化策略逻辑并接入模型API即可参赛,平台提供实时支持[53][54][55][56][58] - **激励机制**:国际赛提供现金奖励,第一名可获得5000美元,前十名均有丰厚奖励,以鼓励策略创新[61][62][63] - **赛事安排**:正式比赛时间为3月1日至3月15日,封榜时间为3月16日0:00,对战结果实时更新于排行榜[67][68][70]
【太平洋科技-每日观点&资讯】(2026-02-25)
远峰电子· 2026-02-24 21:09
市场板块表现 - TMT领涨板块:SW被动元件板块上涨9.18%,SW通信线缆及配套板块上涨6.93%,SW通信网络设备及器件板块上涨4.03% [1] - TMT领跌板块:SW影视动漫制作板块下跌10.84%,SW门户网站板块下跌5.52%,SW横向通用软件板块下跌4.64% [1] 国内半导体与科技新闻 - 盛合晶微拟募资48亿元,投资于三维多芯片集成封装项目和超高密度互联三维多芯片集成封装项目,用于形成多个芯粒多芯片集成封装技术平台的规模产能并补充凸块制造产能 [1] - 黑芝麻智能与国汽智控基于华山A2000芯片联合推出的智能驾驶解决方案,获国内某头部车企智能驾驶项目定点,覆盖L2+至L3级功能 [1] - 中国台湾省经济部门国际贸易署正式生效战略性高科技货品管制清单,新增高端3D打印设备、先进半导体设备、量子计算机等18项货品 [1] - 凯世通向国内头部芯片制造客户完成低能大束流离子注入机新产品复购订单交付,设备在颗粒物控制、束流稳定性等方面实现自主突破,已步入产业化验证与批量应用新阶段 [1] 海外半导体与科技新闻 - 英飞凌位于德国德累斯顿的全新300毫米晶圆厂建设顺利,预计2026年7月2日投产,以满足AI数据中心电源需求(预计未来三年增长十倍),全面投产后预计年销售额达约50亿欧元 [2] - 博通推出高集成度射频数字前端(DFE)SoC芯片BroadPeak™,为5G大规模MIMO与RRH应用开辟新可能,并为5G-A和6G无线基础设施铺路 [2] - 韩国2月1日至20日出口总额达435亿美元,同比增长23.5%,其中半导体出口额飙升134.1%至151.2亿美元,占出口总额的34.7% [2] - ASML已找到可大幅提升关键芯片制造机器光源功率的方法,进而能在2030年前将芯片产量提高多达50% [2] AI行业资讯 - Spotify旗下AI提示词歌单功能在英、爱、澳、瑞典等多国对Premium订阅用户开放,用户可用自然语言描述生成歌单 [2] - Google推出Gemini 3.1 Pro Preview模型,在复杂逻辑推理和问题解决方面表现突出,推理能力是前代模型的两倍多,在ARC‑AGI‑2测试中得分77.1% [2] - Anthropic发布Sonnet 4.6模型,具备100万token上下文窗口,在编码、计算机使用、长上下文推理等方面全面升级,70%的时间用户更喜欢Sonnet 4.6而非4.5 [2] - 阿里发布Qwen3.5-397B-A17B开放权重版本,总参数3970亿但每次仅激活170亿,采用混合架构,支持GUI智能体、视觉编程等多场景应用 [2] “十五五”前瞻行业追踪 - 【具身智能】宇树发布四足机器人Unitree As2,具备90N.m峰值扭矩,空载续航超4小时,负载15kg续航超13km,开放二次开发生态 [3] - 【脑机接口】Synchron临床进展显示,其走血管内微创介入路线,在COMMAND早期可行性试验的12个月随访中,6名严重瘫痪患者未发生严重不良事件,并成功实现意念发送邮件、网购等操作 [3] - 【高端仪器】超维景完成超亿元B+轮融资,将通过深化“高端科学仪器+脑机”双轮驱动战略,推动高时空分辨率神经观测技术的应用,并支撑高端科研仪器自主可控 [3] - 【新材料】陶氏公司位于加拿大的Path2Zero石化综合体项目重获推进,一期投入运营时间定于2029年末(较原计划推迟约两年),二期预计2030年底投产(较此前预期延迟一年) [3] 半导体产品价格数据 - 02月24日国际DRAM颗粒现货价格中,DDR5 16G (2G×8) 4800/5600盘平均价为38.167美元,日涨跌幅0.18%;DDR4 8Gb (1G×8) 3200盘平均价为31.900美元,日涨跌幅1.27% [4] - 02月24日百川盈孚半导体材料价格显示,多数锌系粉体、高纯金属及晶片衬底价格日变化为0元/千克或元/片,其中6N高纯铟、7N高纯铟及7N高纯铟(非标品)日均价格上涨200元/千克 [5]