Workflow
按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%
机器之心·2025-10-17 12:09

AGI定义框架 - 由Yoshua Bengio、埃里克・施密特、Gary Marcus等学者与行业领袖联手提出一个全面、可测试的AGI定义框架[1] - 该框架将AGI定义为一种能够匹敌甚至超越受过良好教育的成年人的认知多功能性和熟练程度的人工智能[3] - 定义强调通用智能不仅需要专业化表现,还需具备人类认知技能的广度和深度[4] 量化评估方法 - 以卡特尔-霍恩-卡罗尔认知能力理论为基础,这是人类智力最经实证验证的模型[6] - 使用用于测试人类的认知测试系统来测试人工智能系统,得出标准化的“通用智力指数”分数[7] - 该框架包含十项核心认知分量,每项等量加权10%,以覆盖主要的认知领域[9] GPT模型核心能力评估 - 在一般知识方面,GPT-4总分为8%,GPT-5为9%[14] - 在阅读与写作能力方面,GPT-4总分为6%,GPT-5为10%[15] - 在数学能力方面,GPT-4总分为4%,GPT-5为10%[16] - 在现场即时推理能力方面,GPT-4总分为0%,GPT-5为7%[17] - 在工作记忆方面,GPT-4总分为2%,GPT-5为4%[18] - 在长期记忆存储方面,GPT-4和GPT-5总分均为0%[19] - 在长期记忆检索方面,GPT-4和GPT-5总分均为4%[20] - 在视觉处理方面,GPT-4总分为0%,GPT-5为4%[21] - 在听觉处理方面,GPT-4总分为0%,GPT-5为6%[22] 当前AI系统瓶颈 - 当代AI系统的认知结构呈现高度“锯齿状”不均衡特征[25] - 长期记忆存储是当前最显著的瓶颈之一,得分几乎接近0%[25] - 视觉推理方面的缺陷阻碍了AI智能体与复杂数字环境进行有效交互的能力[26] - 模型存在“能力扭曲”,利用强项弥补弱点,制造出脆弱的“通用智能幻觉”[27][28] 能力扭曲的具体表现 - 依赖巨大的上下文窗口来弥补长期记忆存储的缺失,但效率低且计算成本高[29] - 通过检索增强生成缓解长期记忆提取的不精确表现,但这掩盖了AI记忆的深层弱点[30][31] - 误将“能力扭曲”视为真正的认知广度会导致对AGI到来时间的误判[32] 认知能力的相互依赖 - 智能的十个测量维度高度相互依赖,复杂认知任务几乎从不依靠单一领域完成[37] - 解决高阶数学问题同时依赖数学能力与即时推理,理解电影需整合听觉加工、视觉加工与工作记忆[37] - 不同的测验组合往往共同考察多个能力,反映出通用智能的整体性特征[38] 最终评估结果 - GPT-4的最终AGI分数为27%,GPT-5为58%[50] - 当前前沿LLM模型离AGI还相距甚远,尤其在基础认知机制上存在显著缺陷[24][50] - 该框架提供了一个具体的量化尺度,既展现AI的迅速进步,也揭示距离真正AGI的巨大差距[50]