模型上下文能力 - 财报，业绩电话会，研报，新闻

模型上下文能力

搜索文档

量子位· 2025-08-26 16:11

GPT-5在《宝可梦水晶》中的性能表现 - GPT-5仅用9517步通关《宝可梦水晶》，效率远超o3的27040步（o3步数为GPT-5的2.8倍）[3][4] - 通关时间仅需202小时（约一周），而o3需近一个月，人类玩家通常需5天（每天8小时）[4][5] - 在主线任务中，GPT-5收集16枚徽章仅用9205步，o3需22334步（GPT-5效率为o3的2.4倍）[10] - 从收集徽章到击败最终boss赤爷，GPT-5仅用312步，o3需近5000步（GPT-5加速超16倍）[11] - 在四天王和冠军剧情中，GPT-5用7329步，o3用18115步（GPT-5效率为o3的2.5倍）[14] GPT-5的核心能力优势 - 幻觉显著减少，决策速度更快，成为效率提升的主因[21] - 空间推理能力更强，能规划长行动序列且几乎无错误，避免o3常见的穿墙或迷路问题[21] - 目标规划与执行能力出色，优于其他模型[21] - 通过多层信息整合（游戏截图、内存数据、文本规划）实现接近人类的决策能力[27][28] - 配备自我批评机制（Critic/Guide模型），定期评审并避免常见失败模式[33] 宝可梦游戏作为AI性能测试基准 - 游戏可衡量模型的上下文处理、决策规划及界面控制能力[29] - 需整合系统提示、游戏截图、内存信息及文本规划工具[27] - 专门构建标记地图辅助定位，模拟人类玩家的空间认知方式[32] - 但测试成本极高：通关《宝可梦红》（游戏长度仅为《水晶》一半）消耗约3500美元API费用，单token成本超4元人民币[30][31] 行业竞争与历史背景 - OpenAI联合创始人Greg Brockman公开认可GPT-5表现[18] - 此前Google Gemini 2.5 Pro于2024年5月通关《宝可梦蓝》，而Anthropic Claude仍困于剧情[23][24] - 宝可梦成为多厂商大模型性能测试的共性选择，凸显其作为复杂决策基准的价值[26]

Artificial Intelligence

Artificial Intelligence

GPT - 5