Workflow
Scaling
icon
搜索文档
GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
36氪· 2025-08-12 11:57
GPT-5性能缺陷 - GPT-5在简单字母计数任务中表现异常,例如将"blueberry"中的b错误计数为3个[1][5][7] - 即使通过多种提示策略纠正(如展示字母位置、直接拼写单词),模型仍坚持错误答案并给出不合理解释(如"double b")[5][7][9] - 中文测试同样失效,例如将"blueberry"中的e错误计数为3个[13] 多模态与逻辑推理漏洞 - 在多模态场景中,GPT-5无法识别人工修改的图片(如5条腿的斑马、3条腿的鸭子),仍按常规对象计数[21] - 逻辑推理能力存在缺陷,包括伯努利原理演示错误、国际象棋规则违反(4回合出现非法移动)[15][16] - 阅读理解任务也被发现存在明显错误[19] 学术批评与路线争议 - 学者指出GPT-5存在"分布漂移问题",其泛化能力与1998年神经网络相似,30年未解决[26][30] - 批评认为Scaling Law无法实现AGI,Transformer架构存在根本局限[30] - 神经符号AI(Neuro-symbolic)被提议为解决泛化问题和实现AGI的替代路径[31] 用户反馈与厂商应对 - 用户通过持续交互可使GPT-5给出正确答案,但模型仍坚持最初错误的逻辑(如声称混淆了虚构单词"blueberry")[12] - OpenAI因用户批评紧急恢复GPT-4o模型下线[26]
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
量子位· 2025-08-11 18:12
GPT-5性能缺陷 - 在字母计数任务中出现错误,如将blueberry中的b错误计数为3个而非实际2个[2][6] - 变换提示词策略后仍坚持错误答案,如将单词开头blue中的b重复计数两次[5][6] - 被直接纠正后仍出现位置漂移错误,如将第三个b的位置从第七字母错误定位到第六字母[9] 多模态与逻辑推理问题 - 在图像识别任务中无法识别异常特征,如将5条腿的斑马和3条腿的鸭子判断为正常生物[27] - 国际象棋规则理解存在缺陷,仅4个回合后就出现非法移动操作[23] - 伯努利原理演示现场出现翻车情况[21] 模型泛化能力局限 - 思维链(CoT)方法在训练分布外失效,表明模型泛化能力不足[33] - 存在持续30年未解决的分布漂移问题,影响模型泛化性能[38] - 最新模型仍存在与1998年神经网络相同的泛化问题[37] 技术路线争议 - 缩放法则(Scaling)被质疑无法实现AGI目标[40] - Transformer中的注意力机制被认为并非终极解决方案[40] - 神经符号(Neuro-symbolic)AI被提出作为解决泛化问题的替代路径[41]