智谱创始人唐杰:AI大模型“人类终极测试”能力正快速提升
智谱智谱(HK:02513) 新浪科技·2026-01-10 22:22

AI大模型能力演进路径 - 2020年,AI大模型仅能解决MMU、QA等基础问题,实现基础知识的直接调用[2] - 2021至2022年,通过后训练,模型开始具备数学推理(加减乘除)能力,补齐基础推理短板[2] - 2023至2024年,大模型能力从知识记忆升级至复杂推理,可应对研究生阶段问题及SWE bench真实编程任务[2] - 2025年以来,AI大模型在人类终极测试(HLE)这一高难度智能评测基准中的表现开始快速提升,该测试包含谷歌无法检索的极端冷门问题[2] 行业技术发展历程 - 2020年左右,行业基于Transformer架构,通过扩大数据量与算力,强化模型长时知识记忆能力[3] - 2022年左右,行业通过对齐与推理优化,强化复杂推理能力与意图理解,核心手段是持续扩展指令微调(SFT)与强化学习,依托大量人类反馈数据提升模型准确性[3] - 2025年,行业开始尝试通过构建可验证环境,让机器自主探索、获取反馈数据实现自我成长并强化泛化能力,以解决传统人类反馈数据噪音多、场景单一的问题[3] 当前发展重点与目标 - 行业希望AI具备泛化能力,即“教它一点点,它就能举一反三”[2] - 目前AI的泛化能力还有待大大提高,但智谱乃至于整个行业正通过一系列手段来提高它[2]