Software and Internet - 财报，业绩电话会，研报，新闻

Software and Internet

搜索文档

搜狐财经· 2026-02-04 18:20

文章核心观点 - 当前最先进的大型语言模型在真实世界的复杂任务中表现不佳，其核心缺陷在于严重依赖预训练获得的静态“参数化知识”，而缺乏从给定上下文中实时学习并应用新知识的能力，这阻碍了AI从“做题家”向实用工具的转变 [4][6][27] - 腾讯混元与复旦大学团队推出的CL-bench基准测试量化了这一差距，测试显示即便最强的GPT-5.1 (High)模型，在必须从上下文中学习新知识才能解决的任务上，总体解决率也仅为23.7% [4][19][23] - 该研究呼应了“AI下半场”的判断，即行业重点应从盲目扩大模型规模转向提升模型在真实任务和系统中的评估与实用能力 [2][27] AI模型能力评估与瓶颈 - **整体表现堪忧**：在CL-bench的500个复杂上下文、1899个任务上，评估的十个前沿语言模型平均仅解决了17.2%的任务，表现最好的GPT-5.1 (High)解决率为23.7%，最差的DeepSeek V3.2 Thinking解决率为13.2% [19][23] - **跨场景能力不均**：模型在四类上下文学习场景中表现存在差异，在“经验发现与模拟”这类需要归纳推理的任务上表现最差，GPT-5.1 (High)在此类任务上的解决率仅为18.1%，而多数模型在此类任务上的解决率通常低于10% [8][23][25] - **错误根源分析**：模型失败的主要原因是忽略或误用上下文，而非信息缺失。例如，GPT-5.1 (High)有55.3%的错误源于忽略上下文，65.4%的错误源于误用上下文。模型倾向于依赖预训练的静态知识，而非学习上下文中的新规则 [23][24] - **推理强度作用有限**：增加模型的推理强度对提升上下文学习能力效果有限。例如，GPT-5.1在部分任务上提升约6%，但其他模型提升有限甚至可能下降，表明仅靠更多推理步骤并不足够 [29] CL-bench基准测试设计 - **测试目标明确**：基准旨在量化模型从上下文中学习预训练中不存在的新知识并加以应用的能力，其设计原则是解决任务必须依赖上下文学习 [6] - **内容构建严谨**：基准包含500个由领域专家精心制作的复杂上下文、1899个任务和31607个验证标准。为确保无数据泄露，内容采用完全虚构、修改现实或整合极小众资料的方式构建，每个上下文平均耗时约20小时标注 [6][19] - **覆盖场景广泛**：测试涵盖四种现实世界场景：1) 领域知识推理（如新法律、金融工具）；2) 规则系统应用（如新游戏机制、编程语法）；3) 程序性任务执行（如工作流手册）；4) 经验发现与模拟（从数据中归纳规律） [8] - **有效性验证**：在不提供上下文的情况下，GPT-5.1 (High)仅能解决不到1%的任务，有力证明了任务设计有效，模型几乎无法凭记忆解决 [19] 行业发展趋势与公司动向 - **研究方向转变**：行业研究重点正从“训练大于评估”的上半场，转向“评估大于训练”的下半场，更关注模型在真实任务中的检验而非单纯堆叠规模 [2][27] - **腾讯的布局**：提出“AI下半场”判断的姚顺雨已正式加盟腾讯，担任总办首席AI科学家，并向总裁刘炽平汇报，同时兼任AI Infra部、大语言模型部负责人，此项CL-bench研究由其提供建议并由腾讯混元与复旦大学团队合作完成 [27] - **未来目标明确**：研究团队指出，当前明确的目标是让上下文学习能力真正走向现实，这将是推动AI实用化的关键一步 [27]