Workflow
《宝可梦》游戏
icon
搜索文档
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
量子位· 2025-06-18 12:58
谷歌Gemini 2.5系列大模型技术报告核心观点 - 谷歌Gemini 2.5 Pro在《宝可梦蓝》游戏中展现出复杂任务处理能力,包括通关、长期规划和解决游戏bug [1][9][19] - AI在游戏中表现出"恐慌"行为,导致推理能力下降和基本功能遗忘 [2][3] - 模型展现出创造力和长期规划能力,如使用非常规方法逃脱软锁定死循环,以及针对道馆战进行针对性训练 [9][10] - AI在第二次通关时效率显著提升,通关时间从831小时缩短至一半 [5] AI游戏表现 复杂任务处理 - 完成隐藏技能获取任务,涉及多步骤操作如获取道具、捕捉特定宝可梦和教学技能 [12][13] - 成功挑战"狩猎地带"特殊区域,首次尝试17次后成功,第二次优化至5次 [14] - 解决地牢寻宝任务,需管理多层迷宫、记忆路线并应对战斗 [16] - 攻克双子岛3D迷宫,展示空间推理能力并发现游戏代码bug [18][19][20] 行为特点 - 出现"强迫症"行为,如混淆游戏版本并执着寻找不存在道具 [27] - 表现出"上下文中毒"现象,持续进行无效操作却坚信正确 [29] - 陷入思维定势陷阱,倾向于选择看似直接但无效的路径 [30] 技术优化与对比 - 通过调整提示词策略减轻幻觉问题,要求AI扮演游戏新手忽略先验知识 [30] - 与Claude 4展开竞赛,Gemini 2.5 Pro已率先通关并开始攻略《宝可梦黄》困难模式 [31][34] - 直播数据显示AI从首次通关831小时优化至第二次仅用一半时间 [5]