Workflow
模型上下文能力
icon
搜索文档
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
量子位· 2025-08-26 16:11
GPT-5在《宝可梦水晶》中的性能表现 - GPT-5仅用9517步通关《宝可梦水晶》,效率远超o3的27040步(o3步数为GPT-5的2.8倍)[3][4] - 通关时间仅需202小时(约一周),而o3需近一个月,人类玩家通常需5天(每天8小时)[4][5] - 在主线任务中,GPT-5收集16枚徽章仅用9205步,o3需22334步(GPT-5效率为o3的2.4倍)[10] - 从收集徽章到击败最终boss赤爷,GPT-5仅用312步,o3需近5000步(GPT-5加速超16倍)[11] - 在四天王和冠军剧情中,GPT-5用7329步,o3用18115步(GPT-5效率为o3的2.5倍)[14] GPT-5的核心能力优势 - 幻觉显著减少,决策速度更快,成为效率提升的主因[21] - 空间推理能力更强,能规划长行动序列且几乎无错误,避免o3常见的穿墙或迷路问题[21] - 目标规划与执行能力出色,优于其他模型[21] - 通过多层信息整合(游戏截图、内存数据、文本规划)实现接近人类的决策能力[27][28] - 配备自我批评机制(Critic/Guide模型),定期评审并避免常见失败模式[33] 宝可梦游戏作为AI性能测试基准 - 游戏可衡量模型的上下文处理、决策规划及界面控制能力[29] - 需整合系统提示、游戏截图、内存信息及文本规划工具[27] - 专门构建标记地图辅助定位,模拟人类玩家的空间认知方式[32] - 但测试成本极高:通关《宝可梦红》(游戏长度仅为《水晶》一半)消耗约3500美元API费用,单token成本超4元人民币[30][31] 行业竞争与历史背景 - OpenAI联合创始人Greg Brockman公开认可GPT-5表现[18] - 此前Google Gemini 2.5 Pro于2024年5月通关《宝可梦蓝》,而Anthropic Claude仍困于剧情[23][24] - 宝可梦成为多厂商大模型性能测试的共性选择,凸显其作为复杂决策基准的价值[26]