ARC-AGI-2基准测试与AI推理能力评估 - ARC-AGI-2基准测试旨在评估AI是否具备AGI所必需的抽象、归纳与迁移推理能力,而非记忆或统计模式匹配[1] - 该基准没有大规模训练集,每道题目都是新任务,因此AI无法通过“刷数据”获得高分,直击大模型依赖数据统计的“软肋”[1][2] - 人类在该基准测试上的平均准确率约为60%[5] Poetiq元系统架构的性能突破 - Poetiq通过其元系统架构,自动构建“会调用模型的系统”,而非训练更大的模型[5] - 其系统Poetiq (GPT-5.2X-High)在ARC-AGI-2上实现了75%的准确率,每问题成本不到8美元[5] - 该系统将GPT-5.2(X-High)的得分从约60%提升至75%,超越前SOTA 15个百分点,且未对基础模型进行任何训练或特定优化[5][6] - 这证明了通过优秀的软件架构,无需堆算力也能大幅提升AI性能[8] 主要AI模型在ARC-AGI-2上的表现对比 - GPT-5.2(X-High)在Poetiq系统加持前,准确率已接近人类平均水平的60%[5] - Gemini 3 Deep Think (Preview)在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列,且成本相对更高[5] OpenAI提出的“能力过剩”时代 - OpenAI预测行业正进入“能力过剩”阶段,即模型“能够做到的事情”与人们“实际使用AI的方式”之间存在巨大断层[9][10] - 未来AGI的进展将不仅取决于模型突破,更取决于AI的有效使用、融入现实工作生活以及系统将模型能力转化为实际价值的能力[10] - 因此,OpenAI在2026年将重点投入应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景[10] 人机协同成为AGI发展的关键 - 实现AGI需要模型和人协同发挥作用,不仅要升级模型,更要“教人用AI”[11] - 挑战在于如何将AI真正融入工作流程,而非仅仅购买技术却不改变任何流程[12] - 下一阶段的AI竞争,将是系统、流程与人机协同的竞争,而不仅是模型参数之争[19] 对“能力过剩”现象的分析 - 从Poetiq提升基础模型性能15个百分点来看,大模型存在“未被充分释放的能力”,从该角度看能力已严重过剩[14] - 能力未被充分释放的原因可能包括:模型设计未紧跟用户场景、前沿模型在推理和创新上缺乏根本性突破、以及模型迭代过快导致用户不断弃用已上手的模型[14][15][17] - 尽管GPT-5等大模型在解决复杂跨学科问题上已达到“博士级智能”的专家级基准,但从实际应用效果看,其能力仍未完全发挥[14]
GPT-5.2考赢人类,OpenAI警告:大模型能力已过剩,AGI天花板不是AI
36氪·2026-01-12 09:08