文章核心观点 - 腾讯首席AI科学家姚顺雨参与的首个研究成果CL-bench发布,该基准旨在测试大模型“从上下文中学习”的能力,揭示了当前最先进的大语言模型在此核心能力上存在严重短板,即便提供全部所需信息,模型在绝大多数真实世界任务上仍会失败 [1][2][4] - 研究指出,当前AI发展已进入“下半场”,重点应从大规模训练转向对模型在真实任务和系统中表现的严格评估,模型需从依赖预训练静态知识的“参数推理者”转变为能实时吸收“当下”环境信息的学习者 [4][5][14] - 评测结果显示,十个前沿大模型在CL-bench上的整体任务解决率平均仅为17.2%,表现最佳的GPT-5.1 (High)也仅达到23.7%,表明模型普遍缺乏从复杂上下文中学习并应用新知识的能力 [7][28][29] CL-bench基准测试的设计与目的 - 设计目标:量化模型从上下文中学习新知识的能力差距,要求模型必须从提供的上下文中学习预训练数据中不存在的新知识并正确应用 [15] - 测试规模:基准包含由领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准 [15] - 内容设计:采用无污染设计,使用完全虚构、修改现实或小众长尾的内容,确保测试的是真正的学习能力而非数据记忆。在不提供上下文时,GPT-5.1 (High)的任务解决率低于1% [25] - 任务场景:涵盖四大类现实世界场景:领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟 [19] - 任务案例:包括基于2.3万字新法律判案、根据新编程语言规范写程序、在新框架中执行代码、模拟全球关键金属供应等 [22] - 投入成本:领域专家平均花费约20小时标注每个上下文,以保证任务质量 [26] 前沿大模型评测结果 - 整体表现低迷:在CL-bench上评估的十个最先进语言模型平均仅解决了17.2%的任务 [29] - 领先模型表现:表现最好的GPT-5.1 (High)整体任务解决率为23.7%,在四大类任务中的解决率分别为:领域知识推理25.3%、规则系统应用23.7%、程序性任务执行23.8%、经验发现与模拟18.1% [29][30] - 其他模型表现:Claude Opus 4.5 Thinking以21.1%位列第二,GPT 5.2 (High)为18.1%,o3 (High)为17.8%,Kimi K2 Thinking为17.6%,混元HunYuan 2.0 Thinking为17.2%,其余模型如Gemini 3 Pro、Qwen 3 Max、Doubao 1.6、DeepSeek V3.2的解决率在13.2%至15.8%之间 [29][30] - 归纳推理是短板:模型在需要从数据中归纳规律的经验发现与模拟类任务上表现最差,解决率通常低于10%,且结果波动大 [32] 模型失败原因分析 - 主要错误类型:忽略或误用上下文是失败主因,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,61.5%源于误用上下文 [31] - 依赖静态知识:模型倾向于调用预训练中学到的静态知识来解决问题,即使上下文明确定义了新的规则或概念,模型也不会学习和利用 [31] - 推理强度作用有限:提高推理强度对提升上下文学习能力的效果有限。例如,GPT-5.1在某些任务上提升约6%,但其他模型提升有限甚至可能下降 [33] - 核心结论:即使通过上下文工程为模型提供了所需信息,如果模型不能真正从中学习,依然会失败。这解释了语言模型在真实场景中经常出错的原因 [36] 研究背景与行业意义 - 研究理念:此项研究是姚顺雨关于“AI下半场”判断的具体实践,即AI发展重点应从训练转向评估,让模型在真实任务中经得起检验 [4][37][38] - 团队构成:研究由腾讯混元与复旦大学团队合作完成,姚顺雨在加盟腾讯后提供了鼓励和宝贵建议,其审阅和反馈提升了工作质量 [39] - 行业启示:与其继续盲目追求模型规模或刷榜,行业应更清晰地诊断模型在核心能力上的缺陷,推动上下文学习能力走向现实 [37][40]
姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”