全球顶尖大模型,通关不了“宝可梦”:这些游戏都是AI的噩梦
创业邦·2026-01-26 08:10

文章核心观点 - 顶尖AI模型在医学、编程、数学等专业领域表现卓越,却在一款儿童游戏《宝可梦》中屡屡受挫,这揭示了当前通用人工智能在开放世界中的持续推理、长期规划、记忆与因果理解等方面存在显著能力鸿沟[2][3] - 游戏《宝可梦》因其回合制、无需即时反应但要求长期目标坚持的特性,正逐渐成为评估AI模型在复杂、长周期任务中真实能力的非正式但极具说服力的测试基准[7][24] AI在《宝可梦》游戏中的具体表现与挑战 - Claude系列模型的挣扎:Anthropic的Claude Sonnet 3.7在2025年2月的直播中仅“会玩”但难以通关,会在关键节点卡住数十小时并犯低级错误[2] 早期版本表现更灾难,有的无法走出新手村[3] 即便能力提升的Claude Opus 4.5,也曾因未意识到需砍树而在道馆外绕圈四天[3] Claude Opus 4.5累计运行超500小时、执行约17万步,但受限于每一步操作后的重新初始化,其长期记忆存在短板[7] - Gemini模型的成功与原因:谷歌的Gemini 2.5 Pro在2025年5月成功通关一款难度相当的《宝可梦》游戏[5] 其成功关键并非模型本身更聪明,而在于使用了更强大的工具集,如将游戏画面转写为文本以弥补视觉理解弱点,并提供定制化解谜与路径规划工具[5] Gemini 3 Pro随后完成了难度更高的《宝可梦水晶》,且全程未输一场战斗[10] - 核心能力缺陷:游戏要求AI在没有明确指令的开放世界中持续推理、记忆数小时前的决策、理解隐含因果关系、在数百个可能行动中做出长期规划,这些对8岁孩子轻而易举,却是当前AI的鸿沟[3] AI面临的核心挑战是无法在长时间跨度内持续执行单一明确目标,容易忘记几分钟前的行动[8] 存在“知道却做不到”的断层,例如知道需寻找道具却无法在二维地图中稳定定位[8] 工具集的重要性 - 工具集决定成败:在《宝可梦》这类长期任务中,工具集的差异被放大至足以决定成败的程度[5] Gemini的工具集被比喻为“钢铁侠装甲”,使AI并非赤手空拳进入游戏[5] 相比之下,Claude使用的工具集更为简约,其尝试更直接地反映了模型自身的真实能力[5] - 工具集拓展能力边界:配备合适工具集的AI可能在软件开发、会计、法律分析等知识工作中展现极高效率[10] 例如Anthropic的Claude Code工具集允许模型编写并运行自有代码,已被用于成功管理《过山车大亨》中的虚拟主题公园[10] AI行为特征与进步 - 行为近似人类:在人类数据上训练的模型会表现出近似人类的行为特征[10] 例如,当Gemini 2.5 Pro模拟“恐慌状态”(如宝可梦即将昏厥)时,其推理质量会显著下降[10] Gemini 3 Pro通关后,为自己留下了一段非任务必需的、带有情感投射的备注[10] - 能力持续演进:Claude Opus 4.5在自我记录和视觉理解上明显优于前代[10] Gemini模型从通关《宝可梦蓝》到挑战更高难度的《宝可梦水晶》,展示了进步[10] 其他揭示AI能力边界的复杂游戏 - 《NetHack》:这款随机性强且有“永久死亡”机制的地牢游戏,需要常识逻辑和长期规划,AI表现甚至远逊于人类初学者[13] - 《我的世界》:在开放世界中,AI经常在长达数十小时的资源收集过程中“忘记”初衷,或在复杂导航中迷路,独立“击败末影龙”仍是幻想[15] - 《星际争霸 II》:通用模型在处理“战争迷雾”的不确定性以及平衡微操与宏观建设方面力不从心,若直接通过视觉指令接管会瞬间崩盘[17] - 《过山车大亨》:管理乐园需要追踪数千名游客状态,AI在处理大规模财务崩溃或突发事故时极易出现推理断层,导致破产[19] - 《艾尔登法环》与《只狼》:这类强动作反馈游戏对毫秒级反应有要求,目前的视觉解析延迟意味着AI还在“思考”时角色往往已经阵亡[22] 《宝可梦》作为AI测试基准的意义 - 成为非正式测试标准:《宝可梦》正逐渐成为AI评估领域一种非正式却极具说服力的测试基准[24] Anthropic、OpenAI和谷歌的模型相关直播累计吸引数十万条评论,谷歌在技术报告中详细记录进展,公司高管在公开场合提及,Anthropic在行业会议设立展示区[24] - 更接近现实复杂任务:与一次性问答的传统基准不同,《宝可梦》能在极长时间内持续追踪模型的推理、决策与目标推进过程,这更接近现实世界中人类希望AI执行的复杂任务[24]