Workflow
GPT-5通关《宝可梦水晶》创纪录,9517步击败赤爷,效率碾压o3三倍
36氪·2025-08-27 14:19

核心观点 - GPT-5在《宝可梦水晶》游戏中以显著优势击败对手o3和人类玩家 通关效率提升约3倍 并得到OpenAI高管的公开认可 [1][3][11] - 宝可梦游戏已成为评估AI大模型上下文处理、规划执行和界面控制能力的新基准 但测试成本高昂 [21][22][23] 性能表现 - 通关步数仅9517步 相比o3的27040步减少约65% [3] - 主线徽章收集环节仅用9205步 相比o3的22334步减少约59% [5] - 最终对战环节仅用312步 相比o3的近5000步效率提升超15倍 [5] - 四天王剧情环节用7329步 相比o3的18115步减少约60% [8] 技术优势 - 幻觉错误显著减少 行动序列规划能力增强 [14] - 空间推理能力提升 可避免穿墙或迷路等错误 [15] - 目标规划与执行效率优化 支持长程决策 [15] - 采用多层信息整合机制 包括游戏截图、内存数据与路径规划工具 [21] - 配备自我批评模型 定期进行错误检查与策略优化 [21] - 构建标记化小地图 模拟人类玩家的空间认知能力 [25] 行业应用 - 谷歌Gemini 2.5 Pro已于今年五月成功通关《宝可梦蓝》 [17] - Anthropic的Claude模型仍在挑战中 尚未完成通关 [17] - 单次测试成本极高 《宝可梦红》测试消耗约3500美元API额度 [23] - 平均每个token成本约4元人民币 测试需6470步操作 [24]