Kaggle Game Arena

搜索文档
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 10:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
AI跑分越来越没意义,谷歌说不如让AI一起玩游戏
36氪· 2025-08-12 07:25
AI模型竞赛与基准测试现状 - 谷歌举办"AI棋王争霸赛",汇集OpenAI o4-mini、DeepSeek-R1、Gemini 2 5 Pro等中美顶级AI模型进行策略游戏对决,旨在通过实战评估复杂推理和决策能力[1][3] - 传统AI基准测试(如HuggingFace榜单)因厂商针对性优化导致失真,例如Meta Llama 4在Chatbot Arena测试27个版本仅公开最佳成绩,实际表现与跑分严重不符[9][11] - 谷歌推出Kaggle Game Arena平台,以策略游戏作为新测试标准,利用规则约束性和随机性更有效衡量AI智能上限[3][12] AI行业投资泡沫现象 - AI初创企业估值虚高现象显著,技术背景创始人轻易获得10亿美元估值,如Builder.ai被揭露实际依赖人工编程却伪装AI公司[4][6] - 投资机构因FOMO(错失恐惧)情绪非理性追捧AI项目,导致行业出现"刷榜"乱象,厂商通过记忆基准测试题目针对性优化跑分成绩[6][9] - 当前AI投资逻辑简化为"跑分决定估值",催生类似Llama 4在GSM8K、MATH等数学测试中刻意刷出80%+正确率的行为[9][11] 游戏与AI技术发展的关联性 - 游戏成为验证AI能力的理想场景,因其具备规则明确、结果可量化、过程可视化等特点,OpenAI曾通过《DOTA2》击败人类战队证明技术突破[12][13] - OpenAI Five项目推动训练模式从强化学习升级为RLHF(基于人类反馈的强化学习),该技术后来成为ChatGPT智能表现的核心基础[15] - 游戏智能化蕴含巨大商业价值,智能NPC开发是游戏厂商重点需求方向,AI游戏表现直接关联技术商业化潜力[15] 主流AI模型性能对比 - 基准测试数据显示Llama 4 Scout在MMLU Pro(74 3)、GPQA Diamond(57 2)等综合能力测试中领先,但LiveCodeBench编程能力仅32 8分[12] - Gemini 2 0 Pro在MathVista(73 1)、DocVQA(94 4)等专项测试中表现突出,但成本达每百万token 4 58美元显著高于竞品[12] - Claude Opus 4在Multilingual MMLU(85 1)等跨语言任务中优势明显,但编程类LiveCodeBench得分未公开[12]
谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
机器之心· 2025-08-05 12:09
比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行,旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台,这是一个公开的AI基准测试平台,支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说,并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流,包含两款中国开源模型,且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制,每场对决包含4局比赛,先获2分者晋级(胜局1分,平局0.5分),若2-2平局则加赛决胜[14] - 模型不得使用外部工具(如Stockfish引擎),且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制,非法走法最多可重试3次,否则判负[17] 赛程安排 - 8月5日:8款模型进行4场初赛(每场4局)[17] - 8月6日:晋级的4款模型进行2场半决赛[17] - 8月7日:决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度,Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码,未来将引入更多游戏以推动AI能力快速提升[8][12]