o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位·2025-06-13 10:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...