刚刚，腾讯姚顺雨署名首篇论文发布，「下半场」先搞上下文学习

文章核心观点 - 当前最先进的大语言模型在“上下文学习”能力上存在显著短板，即使提供了完整且自包含的上下文信息，模型也普遍无法有效从中学习新知识并解决依赖于此的任务，这揭示了当前模型训练范式与真实世界应用需求之间的根本性不匹配 [5][12][32][41] - 腾讯混元团队与复旦联合团队发布的CL-bench基准测试表明，即便是表现最好的模型GPT-5.1 (High)，其任务解决率也仅为23.7%，所有测试模型的平均解决率仅为17.2%，这证明当前SOTA模型几乎不会从上下文中学习 [16][31][32] - 模型能力的未来发展方向需要从依赖静态“参数化知识”的推理者，转变为能够实时从“当下”环境中吸收信息的“上下文学习者”，这要求从根本上改变模型的优化方向 [12][42] 上下文学习的重要性与现实困境 - 行业专家认为，模型迈向高价值应用的核心瓶颈在于能否“用好上下文”，上下文决定了模型与人类认知的边界 [1] - 人类在工作与生活中擅长从实时上下文中学习，例如阅读新文档、学习新游戏规则或分析实验数据，而当前语言模型主要依赖预训练阶段压缩的静态“参数化知识”，缺乏从新输入信息中主动学习的能力 [9][12] - 研究表明，即便抹平了上下文带来的信息差，模型也未必能解决问题，关键在于模型是否具备从上下文中学习新知识、掌握新技能的能力 [5] CL-bench基准测试的设计与发现 - 测试目标与规模：CL-bench是首个专门评测语言模型上下文学习能力的基准，包含500个复杂上下文、1899个任务和31607个验证标准，其核心设计原则是要求模型必须从上下文中学习预训练中不存在的新知识 [16][27] - 任务场景：测试涵盖四大类现实世界场景：1) 领域知识推理；2) 规则系统应用；3) 程序性任务执行；4) 经验发现与模拟（归纳推理） [19][28] - 确保无污染：在不提供上下文的情况下，GPT-5.1 (High)仅能解决不到1%的任务，证明了数据无污染，模型必须通过学习上下文才能解题 [29] - 任务复杂性：51.1%的任务具有序列依赖性，后续任务依赖早期交互结果；领域专家平均花费约20小时标注每个上下文，以确保任务深度与质量 [29] 前沿模型在CL-bench上的表现分析 - 整体表现低迷：在CL-bench评估的十个最先进模型中，整体任务解决率平均仅为17.2%，表现最好的GPT-5.1 (High)也仅达到23.7% [31][32] - 各场景表现差异：模型在“经验发现与模拟”这类需要归纳推理的任务上表现最差，解决率通常低于10%，波动也最大，表明归纳推理比演绎应用规则更具挑战性 [31][39] - 主要错误类型：模型失败的主要原因是忽略或误用上下文，而非信息缺失。例如，GPT-5.1 (High)有55.3%的错误源于忽略上下文，61.5%源于误用上下文 [34][35] - 其他影响因素：提高推理强度（如GPT-5.1）对部分任务（如管理类和实验数据类）有约6%的提升，但并非对所有模型都有效；长上下文处理和指令遵循能力是必要的，但并非实现有效上下文学习的充分条件 [38][39] 对未来AI发展的启示与展望 - 行业竞争焦点转移：如果上下文学习能力得到显著提升，人类在AI系统中的角色将从“训练数据提供者”转变为“上下文提供者”，行业竞争焦点可能从“训练更好的模型”转向“为任务提供最丰富、最相关的上下文” [42] - 面临的新挑战：当前上下文学习获得的知识是临时性的，一旦上下文窗口清空，知识随之消失。因此，如何实现从上下文中习得知识的“持久化”或“记忆巩固”将成为未来关键研究方向 [43][46] - 终极愿景：可靠的上下文学习与记忆能力可能使模型实现“自主学习”，即模型能够自主准备上下文、从中学习并自我巩固知识 [47]