能力扭曲(Capability Contortions)
搜索文档
“AI教父”本吉奥携业界全明星发布重磅文章,重新定义AGI
36氪· 2025-10-17 19:24
AGI定义框架的提出背景 - AI行业存在关于大语言模型能否通向人工通用智能的激烈争论,企业界(如OpenAI、Google)持乐观态度,而学术界重量级人物(如Richard Sutton、Gary Marcus、Yann LeCun)则提出尖锐批评,认为当前模型存在根本缺陷[1] - 争论的核心症结在于AGI缺乏清晰、可操作的定义,导致各方难以在同一基准下讨论[1] - 为解决此问题,由图灵奖得主约书亚·本吉奥领衔的豪华国际研究团队于10月16日发表重要论文《A Definition of AGI》,试图为AGI提供迄今为止最清晰的定义[2] - 研究团队的27名作者涵盖了人工智能领域全球顶级学者、行业领袖及跨领域专家,包括AI安全、伦理、计算机安全、经济学等方向的权威人士,彰显了研究的重要性[5] AGI的新定义与评估框架 - 论文将AGI定义为:一个在认知通用性和熟练度上,能够达到或超过一个受过良好教育的成年人水平的人工智能[8] - 定义包含两个核心特质:通用性(广度),强调AGI需在广泛认知领域具备能力;熟练度(深度),要求AGI在每个认知领域的能力达到人类成年人的精通水平[9][10] - 评估框架基于心理学界最受认可的人类智力结构模型——Cattell-Horn-Carroll理论,将AGI的能力划分为十大方向,每个方向占AGI满分评分的10%[12][13] - 十大能力方向包括:通用知识(K)、读写能力(RW)、数学能力(M)、即时推理(R)、工作记忆(WM)、长期记忆存储(MS)、长期记忆检索(MR)、视觉处理(V)、听觉处理(A)、速度(S)[13][14] - 论文为每个能力方向下的细分项提供了具体的定义、测试样例和公开数据集参考,使评估具备高度可操作性[15][16] - AGI的100%分数代表一个高度熟练、在所有测试维度上达到精通水平的个体,但并非要求聚合人类顶尖技能,而是衡量全面且强大的认知能力水平[17] 当代AI模型的能力评估结果 - 根据新框架评估,GPT-4的AGI总分为27%,而GPT-5(假设于2025年问世)的总分可达58%,进步显著但不均衡[20] - AI模型的强项集中在可从海量数据直接学习的领域:GPT-5在通用知识(K)得分9%、读写能力(RW)得分10%、数学能力(M)得分10%,显示出极高的熟练度[21][24] - 模型存在严重短板:长期记忆存储(MS)得分均为0%,意味着AI患有“失忆症”,无法从互动中积累经验或形成个性化记忆[21][24] - 在即时推理(R)方面,GPT-5得分7%(GPT-4为0%),但在“适应”分项上仍为0%,表现出认知僵化,无法灵活适应未明确告知的规则变化[24][25] - 在多模态能力上,GPT-5在视觉处理(V)得分4%(GPT-4为0%),听觉处理(A)得分6%(GPT-4为0%),但高级视觉推理、空间扫描及声音底层理解能力得分均为0%,表明其对物理世界的认知仍很浅薄[24][26] - 长期记忆检索(MR)中的“幻觉”分项,GPT-4和GPT-5得分均为0%,意味着模型在事实准确性上依然不可靠,输出存在幻觉问题[24][25] - 在速度(S)上,GPT-5得分3%,与GPT-4持平,表明认知能力的提升并未带来执行速度的必然提升[24] 能力扭曲与AGI发展启示 - 论文提出“能力扭曲”概念,指当代AI系统利用其优势能力(如巨大的工作记忆和计算速度)来掩盖基础能力的根本缺陷,制造脆弱的通用假象[27] - 具体扭曲表现包括:用长上下文窗口(工作记忆)伪装长期记忆,以及用检索增强生成(RAG)等外部工具伪装内部记忆检索,这两种方式都是对长期记忆得分为0%这一核心缺陷的弥补[27][28] - 新AGI定义框架的价值在于将模糊概念转化为具体可测指标,为行业提供了共同的讨论基础和发展方向图,尽管框架存在基于英语和西方文化等局限性[29] - 评估结果清晰显示,从GPT-4的27%到GPT-5的58%,AI能力快速提升,但真正的AGI之路依然任重道远,行业需着力解决长期记忆、可靠性、适应性及深层世界模型等根本缺陷[29]