智谱创始人唐杰：AI大模型“人类终极测试”能力正快速提升

AI大模型能力演进路径 - 2020年，AI大模型仅能解决MMU、QA等基础问题，实现基础知识的直接调用[2] - 2021至2022年，通过后训练，模型开始具备数学推理（加减乘除）能力，补齐基础推理短板[2] - 2023至2024年，大模型能力从知识记忆升级至复杂推理，可应对研究生阶段问题及SWE bench真实编程任务[2] - 2025年以来，AI大模型在人类终极测试（HLE）这一高难度智能评测基准中的表现开始快速提升，该测试包含谷歌无法检索的极端冷门问题[2] 行业技术发展历程 - 2020年左右，行业基于Transformer架构，通过扩大数据量与算力，强化模型长时知识记忆能力[3] - 2022年左右，行业通过对齐与推理优化，强化复杂推理能力与意图理解，核心手段是持续扩展指令微调（SFT）与强化学习，依托大量人类反馈数据提升模型准确性[3] - 2025年，行业开始尝试通过构建可验证环境，让机器自主探索、获取反馈数据实现自我成长并强化泛化能力，以解决传统人类反馈数据噪音多、场景单一的问题[3] 当前发展重点与目标 - 行业希望AI具备泛化能力，即“教它一点点，它就能举一反三”[2] - 目前AI的泛化能力还有待大大提高，但智谱乃至于整个行业正通过一系列手段来提高它[2]