刚刚，腾讯姚顺雨团队首个成果发布，揭示大模型真正瓶颈

腾讯混元发布CL-bench基准 - 腾讯混元团队正式上线了由首席AI科学家姚顺雨团队主导开发的基准CL-bench，专门用于评测大语言模型从上下文学习新知识并正确应用的能力，这是该团队加入腾讯后的首个研究成果[1] 基准核心目标与设计理念 - CL-bench的核心目标是要求模型在解决每个任务时，都必须从上下文中学习模型预训练中不存在的新知识并正确应用，旨在弥合模型依赖静态记忆与人类实时学习能力之间的差距[6][7] - 基准包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准，所有知识均为新构建或取自不可能出现在当前模型训练数据中的小众长尾来源[9] - 每个上下文都是完全自包含的，解决任务所需的所有信息都显式地提供在上下文本身之中，无需外部检索[26] - 为确保无数据污染，基准采用虚构创作、修改现有内容及整合小众新兴内容的设计，在不提供上下文的情况下，表现最好的GPT-5.1（High）仅能解决不到1%的任务[28] - 基准设计具有高复杂性，其中51.1%的任务需要序列依赖，增加了任务难度，每个上下文平均关联63.2个验证标准以确保质量[28][29] 模型评测结果与关键发现 - 在评测的十个主流大语言模型中，平均任务解决率仅为17.2%，表现最好的GPT-5.1（High）解决了23.7%的任务，表明当前最先进的模型几乎都不会从上下文中学习[5][15] - 模型失败的主要原因是忽略或误用上下文，而非信息缺失，例如GPT-5.1（High）有55.3%的错误是忽略上下文，61.5%是误用上下文[17][18] - 长上下文推理和指令遵循能力是必要的，但不是充分条件，上下文学习需要的能力远不止于此[19] - 模型在需要归纳推理的“经验发现与模拟”类任务上表现明显更差，任务解决率通常低于10%，表明从数据中发现规律远比应用既定规则更具挑战性[20] - 更高的推理强度通常能提升上下文学习效果，例如GPT-5.1在部分任务上的表现可提升约6%，但并非对所有模型都有效[23] - 上下文学习的难度与长度相关，但短上下文若信息密集、规则隐含，同样极具挑战性，难度不仅源于长度也源于复杂度[25] 基准任务分类体系 - CL-bench涵盖四种广泛的现实世界上下文学习场景：领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟[11] - 这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务，能全面衡量模型的上下文学习能力[14] 行业影响与未来展望 - 该研究指出，如果模型的上下文学习能力得到提升，人类在AI系统中的角色可能从主要的数据提供者转变为上下文提供者，行业竞争焦点可能从模型训练转向上下文提供[30] - 大模型如何记忆很可能成为2026年的核心主题，充分发挥大语言模型的潜力可能需要新的架构和优化方式来决定知识的保留[30] - 未来，一旦大模型的上下文学习与记忆变得可靠，模型或许就能实现自主学习，自主准备上下文并从中学习巩固[30]