吴恩达提出“图灵-AGI测试”的背景与动机 - 2025年被行业视为人工智能工业时代的开端,其标志是模型性能创新、AI应用变得不可或缺、顶尖企业人才争夺激烈以及基础设施建设推动经济增长 [4][5] - 学术界与工业界频繁提及AGI概念,硅谷公司甚至为其设定季度目标,但AGI的定义缺乏统一标准,现有基准测试常误导大众高估当前AI水平 [6][7] - 为弥补AGI衡量标准的空白并校准社会期望,吴恩达计划在2026年推出新的“图灵-AGI测试” [1][8][29] “图灵-AGI测试”的核心设计与理念 - 测试旨在衡量AI的工作能力,其核心是让AI像人类一样智能,并完成大部分知识型工作 [13][14] - 测试对象(AI系统或专业人士)将在一台可访问互联网并配备浏览器、Zoom等软件的计算机上,完成裁判设计的“多日体验任务”,例如作为客服经过培训后执行接听电话工作并提供持续反馈 [15][17] - 只要AI能像人类一样熟练完成工作任务,即被视为通过测试,该测试聚焦于AGI的经济性和实际产出,更接近可用于工作和生产场景的普世定义 [18][19] 新测试相较于现有基准测试的优势 - 现有基准测试(如GPQA、AIME、SWE-bench)使用预先确定的固定测试集,导致AI团队针对测试集优化模型,造成榜单排名靠前但实际能力不足的现象,例如去年的Llama 4刷榜丑闻 [20][21][22] - 固定测试集只能衡量AI在狭窄领域的能力,而图灵-AGI测试允许裁判自由设计任意体验任务,不事先限定范围,更能判断系统在通用任务上的表现 [28] - 新测试比基准测试更能考验AI的通用能力,并为AI团队设定“完成人类工作”的具体目标,而非模糊的“实现人类级智能” [20][31] 行业现状与主要AI模型性能对比 - 根据提供的基准测试数据,主要大模型在多项能力上存在竞争,例如在图像推理(MMMU)任务中,Llama 4 Scout得分为69.4,Gemini 2.0 Flash-Lite为68.0,Gemma 3 27B为64.9,Mistral 3.1 24B为62.8 [23] - 在编码能力(LiveCodeBench)上,Llama 4 Scout得分为32.8,Gemini 2.0 Flash-Lite为28.9,Gemma 3 27B为29.7 [23] - 在推理与知识(GPQA Diamond)任务上,Llama 4 Scout得分为57.2,Gemini 2.0 Flash-Lite为51.5,Gemma 3 27B为42.4,Mistral 3.1 24B为46.0 [23] - 更大规模的模型如Llama 4 Behemoth在GPQA Diamond任务上得分达73.7,Gemini 2.0 Pro为64.7,GPT 4.5为71.4,Claude Sonnet 3.7为68.0 [24] - 在推理成本方面,每百万tokens(3:1混合)的推理成本,Llama 4 Maverick在0.49之间,Gemini 2.0 Flash为$0.17,DeepSeek v3.1为$0.48,GPT-4o为$4.38 [25] 推行新测试对行业的潜在影响 - 举办图灵-AGI测试即便可能以所有AI系统均未通过告终,也有助于平息对AGI的过度炒作,为AI领域创造更稳健的环境 [30] - 行业将能重新聚焦于非AGI级别的实际进步,例如开发有实用价值的应用,而非沉迷于实现AGI的营销噱头 [30] - 该测试为真正的AGI突破提供了可信的判定依据,若有公司通过测试,其成果将具备真实价值 [32]
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
量子位·2026-01-10 11:07