Workflow
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%
量子位·2025-10-17 12:58

AGI定义与评估框架 - 研究团队提出AGI可衡量定义为"能匹配或超越受过良好教育成年人的认知广度和熟练度的人工智能" [2] - 该定义包含两个关键维度:以"受过良好教育的成年人"为具体参照系,强调在多个核心认知领域的全面性表现 [4] - 基于CHC理论将人类通用智力拆解为10个相互独立但关联的核心认知领域,形成包含500余道题目的AGI评估题库 [6][7][8] 当前AI模型表现评估 - 2023年GPT-4总分为27分,2025年GPT-5总分提升至58分,两年间分数增幅超过115% [10][11] - 即使GPT-5也尚未突破AGI及格线100分的半程线,在长时记忆存储领域得分为0分 [13] - 评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平 [8] AI模型优势领域分析 - 当前AI优势高度集中于知识储备与符号处理类领域,GPT-5在知识、读写、数学三个领域得分都超过8分 [17][18] - 知识领域评估显示GPT-5在常识、科学、社会科学、历史、文化方面得分分别为2%、2%、2%、2%、1%,总分9% [19] - 读写领域GPT-5在字母、阅读、写作、用法方面得分分别为1%、3%、3%、3%,总分10%;数学领域算术、代数、几何、概率、微积分均得2%,总分10% [20][21] AI模型核心短板分析 - AI在感知、记忆、推理等基础认知领域存在致命短板,无法通过单纯扩大规模弥补 [23] - 视觉领域GPT-5在感知、生成、推理、空间扫描方面得分分别为2%、2%、0%、0%,总分4%;听觉领域语音编码、语音识别、语音、节奏、音乐判断得分分别为0%、4%、2%、0%、0%,总分6% [25][26] - 长时记忆存储领域GPT-4和GPT-5在联想、有意义、逐字记忆方面均为0分;长时记忆提取领域流畅性得4%,幻觉控制得0%,总分4% [27][28][29] 技术局限性分析 - 部分大模型通过技术手段掩盖短板,如扩大上下文窗口假装具备长期记忆能力,依赖联网搜索功能补充知识 [31][32] - 评估体系明确排除外部工具辅助,仅衡量AI系统的原生认知能力,聚焦于智力本身 [33] - 即使总分再高,核心领域零分的AI本质上是有严重缺陷的"残次版"智能 [34]