上下文学习
搜索文档
腾讯的AI阳谋:10亿红包与NBA免费直播的「背后」
硬AI· 2026-02-17 11:59
文章核心观点 - 腾讯通过“元宝派”产品,以春节发放10亿红包和提供NBA全明星赛1080P直播为手段,其战略实质是抢占AI“上下文”理解的高地,旨在将AI从工具升级为理解用户复杂场景和需求的“数字生命”[3][5][24] - “元宝派”的本质是一个融合多模态、多场景信息的“上下文超级容器”,它整合了腾讯视频、QQ音乐、腾讯体育等内部生态内容,为AI提供了进行复杂上下文学习的独特训练场[8][11][21] - 当前顶级AI模型在处理全新复杂上下文时的正确率仅为23.7%,存在显著瓶颈[15][16]。“元宝派”通过将AI嵌入真实、嘈杂的社交互动场景,能够收集宝贵的RLHF数据,是突破此瓶颈、提升AI上下文理解能力的关键实践[17][19][25] 元宝派的本质:不仅是群聊,更是“上下文”的超级容器 - 该产品被重新定义为“流动的、多模态的‘上下文容器’”,而不仅仅是带AI功能的聊天室[10][11] - 它实现了腾讯内部生态的深度整合,将腾讯视频的影视库、QQ音乐的海量曲库、腾讯体育的赛事直播等原本分散的“语境”熔铸在一个AI对话框内[11] - 对于用户而言,这带来了“服务找人,而非人找服务”的体验升级;对于AI而言,则是一场处理复杂、融合信息的“地狱级考试”[11][12] 突破23.7%!打破上下文瓶颈 - 根据腾讯混元团队负责人姚顺雨的论文《CL-bench》,即便是目前最强的AI模型(如GPT 5.1 High),在面对全新复杂上下文时的整体正确率也仅为23.7%[15][16] - 研究区分了“预训练”(死记硬背已有知识)和“上下文学习”(根据新信息实时推理),后者在长且复杂的逻辑场景中容易失败[16][17][20] - “元宝派”通过真实社交场景中用户的每一次互动、反馈和纠正,为AI提供了突破上下文瓶颈所需的宝贵RLHF数据,构建了竞争对手难以复制的数据飞轮[19][21] - 摩根大通分析指出,腾讯的核心护城河在于将AI嵌入搜索、内容、小程序等高频率使用场景,这种基于“分发与参与度”的优势比单纯技术指标更为持久[19]
姚顺雨的最新成果,才是腾讯发完 10 亿红包后决战 AI 的关键
36氪· 2026-02-07 16:46
腾讯混元AI团队的研究成果 - 腾讯混元团队联合复旦大学发布研究,聚焦大模型的上下文学习能力,揭示了当前AI在处理全新、非公开情境时的核心弱点[2] - 研究构建了名为CL-bench的评测基准,包含近2000个由专家精心构造、从未在互联网上公开过的“全新情境”,用于测试模型的情境学习能力[6] 大模型运作机制与上下文的重要性 - 大模型运作分为两个基本阶段:预训练阶段,模型通过阅读海量数据记住知识和模式;情境学习阶段,模型需根据用户提供的全新上下文进行实时推理和判断[3] - 上下文学习能力至关重要,因为预训练数据是静态的,而真实世界是动态的,互联网上并非应有尽有,模型必须能根据即时提供的新信息来回答问题[3] - 上下文被视为AI的灵魂,若模型记不住或理解错上下文,就会产生“幻觉”,依据其预训练记忆中的通用规则进行错误回答[6] 主流大模型在上下文学习上的表现 - 根据CL-bench排行榜,目前最先进的模型在要求其仅依据新上下文作答时,整体正确率极低[8] - GPT-5.1 (High)模型的整体正确率仅为23.7%[8][9] - Claude Opus 4.5 Thinking模型的整体正确率约为21.1%[8][9] - 其他主流模型,如GPT-5.2 (High)、o3 (High)、Kimi K2 Thinking等,整体正确率大多在10%至18%之间徘徊[8][9] 模型在情境学习中失败的原因 - 失败的主要原因之一是预训练中学到的模式“根深蒂固”,导致模型在接收新上下文时,无法有效抑制预训练数据中的固有模式[10] - 复杂逻辑的推演能力是当前技术的瓶颈,当上下文非常长、逻辑非常复杂时,模型的表现会直线下降,其解决率会暴跌[11] 腾讯发力上下文学习的战略考量 - 此次研究是前OpenAI研究员、清华姚班天才少年姚顺雨入主腾讯AI后首次署名的研究成果,体现了公司在该领域的长远布局[2][12] - 腾讯的业务根基深植于“社交”与“内容”,如微信、QQ等场景产生连绵不断、高度碎片化的对话流,这对AI的上下文理解能力提出了极高要求[14] - 在游戏与企业服务领域,腾讯同样需要AI能根据即时操作、游戏内实时局势或特定的会议纪要、私有文档进行精准分析与反应,而非机械背诵[16] - 对于拥有海量应用场景的腾讯而言,一个能在复杂上下文中保持清醒、逻辑严密的模型,比一个博学但只会死记硬背的模型具有更大的商业价值和落地潜力[16]
姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
搜狐财经· 2026-02-04 18:20
文章核心观点 - 当前最先进的大型语言模型在真实世界的复杂任务中表现不佳,其核心缺陷在于严重依赖预训练获得的静态“参数化知识”,而缺乏从给定上下文中实时学习并应用新知识的能力,这阻碍了AI从“做题家”向实用工具的转变 [4][6][27] - 腾讯混元与复旦大学团队推出的CL-bench基准测试量化了这一差距,测试显示即便最强的GPT-5.1 (High)模型,在必须从上下文中学习新知识才能解决的任务上,总体解决率也仅为23.7% [4][19][23] - 该研究呼应了“AI下半场”的判断,即行业重点应从盲目扩大模型规模转向提升模型在真实任务和系统中的评估与实用能力 [2][27] AI模型能力评估与瓶颈 - **整体表现堪忧**:在CL-bench的500个复杂上下文、1899个任务上,评估的十个前沿语言模型平均仅解决了17.2%的任务,表现最好的GPT-5.1 (High)解决率为23.7%,最差的DeepSeek V3.2 Thinking解决率为13.2% [19][23] - **跨场景能力不均**:模型在四类上下文学习场景中表现存在差异,在“经验发现与模拟”这类需要归纳推理的任务上表现最差,GPT-5.1 (High)在此类任务上的解决率仅为18.1%,而多数模型在此类任务上的解决率通常低于10% [8][23][25] - **错误根源分析**:模型失败的主要原因是忽略或误用上下文,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,65.4%的错误源于误用上下文。模型倾向于依赖预训练的静态知识,而非学习上下文中的新规则 [23][24] - **推理强度作用有限**:增加模型的推理强度对提升上下文学习能力效果有限。例如,GPT-5.1在部分任务上提升约6%,但其他模型提升有限甚至可能下降,表明仅靠更多推理步骤并不足够 [29] CL-bench基准测试设计 - **测试目标明确**:基准旨在量化模型从上下文中学习预训练中不存在的新知识并加以应用的能力,其设计原则是解决任务必须依赖上下文学习 [6] - **内容构建严谨**:基准包含500个由领域专家精心制作的复杂上下文、1899个任务和31607个验证标准。为确保无数据泄露,内容采用完全虚构、修改现实或整合极小众资料的方式构建,每个上下文平均耗时约20小时标注 [6][19] - **覆盖场景广泛**:测试涵盖四种现实世界场景:1) 领域知识推理(如新法律、金融工具);2) 规则系统应用(如新游戏机制、编程语法);3) 程序性任务执行(如工作流手册);4) 经验发现与模拟(从数据中归纳规律) [8] - **有效性验证**:在不提供上下文的情况下,GPT-5.1 (High)仅能解决不到1%的任务,有力证明了任务设计有效,模型几乎无法凭记忆解决 [19] 行业发展趋势与公司动向 - **研究方向转变**:行业研究重点正从“训练大于评估”的上半场,转向“评估大于训练”的下半场,更关注模型在真实任务中的检验而非单纯堆叠规模 [2][27] - **腾讯的布局**:提出“AI下半场”判断的姚顺雨已正式加盟腾讯,担任总办首席AI科学家,并向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,此项CL-bench研究由其提供建议并由腾讯混元与复旦大学团队合作完成 [27] - **未来目标明确**:研究团队指出,当前明确的目标是让上下文学习能力真正走向现实,这将是推动AI实用化的关键一步 [27]
姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
量子位· 2026-02-04 09:01
文章核心观点 - 腾讯首席AI科学家姚顺雨参与的首个研究成果CL-bench发布,该基准旨在测试大模型“从上下文中学习”的能力,揭示了当前最先进的大语言模型在此核心能力上存在严重短板,即便提供全部所需信息,模型在绝大多数真实世界任务上仍会失败 [1][2][4] - 研究指出,当前AI发展已进入“下半场”,重点应从大规模训练转向对模型在真实任务和系统中表现的严格评估,模型需从依赖预训练静态知识的“参数推理者”转变为能实时吸收“当下”环境信息的学习者 [4][5][14] - 评测结果显示,十个前沿大模型在CL-bench上的整体任务解决率平均仅为17.2%,表现最佳的GPT-5.1 (High)也仅达到23.7%,表明模型普遍缺乏从复杂上下文中学习并应用新知识的能力 [7][28][29] CL-bench基准测试的设计与目的 - **设计目标**:量化模型从上下文中学习新知识的能力差距,要求模型必须从提供的上下文中学习预训练数据中不存在的新知识并正确应用 [15] - **测试规模**:基准包含由领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准 [15] - **内容设计**:采用无污染设计,使用完全虚构、修改现实或小众长尾的内容,确保测试的是真正的学习能力而非数据记忆。在不提供上下文时,GPT-5.1 (High)的任务解决率低于1% [25] - **任务场景**:涵盖四大类现实世界场景:领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟 [19] - **任务案例**:包括基于2.3万字新法律判案、根据新编程语言规范写程序、在新框架中执行代码、模拟全球关键金属供应等 [22] - **投入成本**:领域专家平均花费约20小时标注每个上下文,以保证任务质量 [26] 前沿大模型评测结果 - **整体表现低迷**:在CL-bench上评估的十个最先进语言模型平均仅解决了17.2%的任务 [29] - **领先模型表现**:表现最好的GPT-5.1 (High)整体任务解决率为23.7%,在四大类任务中的解决率分别为:领域知识推理25.3%、规则系统应用23.7%、程序性任务执行23.8%、经验发现与模拟18.1% [29][30] - **其他模型表现**:Claude Opus 4.5 Thinking以21.1%位列第二,GPT 5.2 (High)为18.1%,o3 (High)为17.8%,Kimi K2 Thinking为17.6%,混元HunYuan 2.0 Thinking为17.2%,其余模型如Gemini 3 Pro、Qwen 3 Max、Doubao 1.6、DeepSeek V3.2的解决率在13.2%至15.8%之间 [29][30] - **归纳推理是短板**:模型在需要从数据中归纳规律的经验发现与模拟类任务上表现最差,解决率通常低于10%,且结果波动大 [32] 模型失败原因分析 - **主要错误类型**:忽略或误用上下文是失败主因,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,61.5%源于误用上下文 [31] - **依赖静态知识**:模型倾向于调用预训练中学到的静态知识来解决问题,即使上下文明确定义了新的规则或概念,模型也不会学习和利用 [31] - **推理强度作用有限**:提高推理强度对提升上下文学习能力的效果有限。例如,GPT-5.1在某些任务上提升约6%,但其他模型提升有限甚至可能下降 [33] - **核心结论**:即使通过上下文工程为模型提供了所需信息,如果模型不能真正从中学习,依然会失败。这解释了语言模型在真实场景中经常出错的原因 [36] 研究背景与行业意义 - **研究理念**:此项研究是姚顺雨关于“AI下半场”判断的具体实践,即AI发展重点应从训练转向评估,让模型在真实任务中经得起检验 [4][37][38] - **团队构成**:研究由腾讯混元与复旦大学团队合作完成,姚顺雨在加盟腾讯后提供了鼓励和宝贵建议,其审阅和反馈提升了工作质量 [39] - **行业启示**:与其继续盲目追求模型规模或刷榜,行业应更清晰地诊断模型在核心能力上的缺陷,推动上下文学习能力走向现实 [37][40]
担任腾讯首席AI科学家后,姚顺雨带领团队揭晓首个研究成果
南方都市报· 2026-02-03 23:35
腾讯混元团队最新研究成果 - 腾讯混元团队联合复旦大学发布新研究,系统探讨大模型“从上下文中学习”的挑战与现状,这是姚顺雨担任腾讯首席AI科学家后团队首次发布研究成果 [1] - 研究指出,让大模型学会“从上下文中学习”远比想象中困难,即便抹平信息差,模型也未必能解决问题,表明其在上下文利用上存在显著能力短板 [6] - 研究构建了专门评测语言模型上下文学习能力的基准CL-bench,包含500个复杂上下文、1899个任务和31607个验证标准,要求模型必须从上下文中学习预训练不存在的新知识并正确应用 [6][7] 大模型上下文学习能力现状 - 实验发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2%,表明即使是最强模型在上下文利用方面仍然表现不佳 [7] - 该研究为大语言模型后续迭代指出了一个可能方向,即强化模型从上下文中进行学习的能力 [7] - 研究团队强调,模型如何记忆很可能成为2026年大模型发展的另一个核心主题,一旦上下文学习与记忆变得可靠,模型或能实现自主学习 [7] 行业竞争焦点与角色转变 - 研究认为,未来竞争的焦点将从“谁能把模型训练得更好”,转向“谁能为任务提供最丰富、最相关的上下文” [1][7] - 如果模型的上下文学习能力得到提升,人类在AI系统中的角色将发生转变:从主要的数据提供者转变为上下文提供者 [7] 腾讯AI组织架构与人事任命 - 去年12月17日,腾讯升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化其大模型的研发体系与核心能力 [3] - OpenAI著名研究者姚顺雨出任腾讯“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [3]
刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习
机器之心· 2026-02-03 18:35
文章核心观点 - 当前最先进的大语言模型在“上下文学习”能力上存在显著短板,即使提供了完整且自包含的上下文信息,模型也普遍无法有效从中学习新知识并解决依赖于此的任务,这揭示了当前模型训练范式与真实世界应用需求之间的根本性不匹配 [5][12][32][41] - 腾讯混元团队与复旦联合团队发布的CL-bench基准测试表明,即便是表现最好的模型GPT-5.1 (High),其任务解决率也仅为23.7%,所有测试模型的平均解决率仅为17.2%,这证明当前SOTA模型几乎不会从上下文中学习 [16][31][32] - 模型能力的未来发展方向需要从依赖静态“参数化知识”的推理者,转变为能够实时从“当下”环境中吸收信息的“上下文学习者”,这要求从根本上改变模型的优化方向 [12][42] 上下文学习的重要性与现实困境 - 行业专家认为,模型迈向高价值应用的核心瓶颈在于能否“用好上下文”,上下文决定了模型与人类认知的边界 [1] - 人类在工作与生活中擅长从实时上下文中学习,例如阅读新文档、学习新游戏规则或分析实验数据,而当前语言模型主要依赖预训练阶段压缩的静态“参数化知识”,缺乏从新输入信息中主动学习的能力 [9][12] - 研究表明,即便抹平了上下文带来的信息差,模型也未必能解决问题,关键在于模型是否具备从上下文中学习新知识、掌握新技能的能力 [5] CL-bench基准测试的设计与发现 - **测试目标与规模**:CL-bench是首个专门评测语言模型上下文学习能力的基准,包含500个复杂上下文、1899个任务和31607个验证标准,其核心设计原则是要求模型必须从上下文中学习预训练中不存在的新知识 [16][27] - **任务场景**:测试涵盖四大类现实世界场景:1) 领域知识推理;2) 规则系统应用;3) 程序性任务执行;4) 经验发现与模拟(归纳推理) [19][28] - **确保无污染**:在不提供上下文的情况下,GPT-5.1 (High)仅能解决不到1%的任务,证明了数据无污染,模型必须通过学习上下文才能解题 [29] - **任务复杂性**:51.1%的任务具有序列依赖性,后续任务依赖早期交互结果;领域专家平均花费约20小时标注每个上下文,以确保任务深度与质量 [29] 前沿模型在CL-bench上的表现分析 - **整体表现低迷**:在CL-bench评估的十个最先进模型中,整体任务解决率平均仅为17.2%,表现最好的GPT-5.1 (High)也仅达到23.7% [31][32] - **各场景表现差异**:模型在“经验发现与模拟”这类需要归纳推理的任务上表现最差,解决率通常低于10%,波动也最大,表明归纳推理比演绎应用规则更具挑战性 [31][39] - **主要错误类型**:模型失败的主要原因是忽略或误用上下文,而非信息缺失。例如,GPT-5.1 (High)有55.3%的错误源于忽略上下文,61.5%源于误用上下文 [34][35] - **其他影响因素**:提高推理强度(如GPT-5.1)对部分任务(如管理类和实验数据类)有约6%的提升,但并非对所有模型都有效;长上下文处理和指令遵循能力是必要的,但并非实现有效上下文学习的充分条件 [38][39] 对未来AI发展的启示与展望 - **行业竞争焦点转移**:如果上下文学习能力得到显著提升,人类在AI系统中的角色将从“训练数据提供者”转变为“上下文提供者”,行业竞争焦点可能从“训练更好的模型”转向“为任务提供最丰富、最相关的上下文” [42] - **面临的新挑战**:当前上下文学习获得的知识是临时性的,一旦上下文窗口清空,知识随之消失。因此,如何实现从上下文中习得知识的“持久化”或“记忆巩固”将成为未来关键研究方向 [43][46] - **终极愿景**:可靠的上下文学习与记忆能力可能使模型实现“自主学习”,即模型能够自主准备上下文、从中学习并自我巩固知识 [47]
圣母大学团队打造分子设计新利器:让AI像写文章一样创造分子
仪器信息网· 2025-11-19 17:08
核心观点 - DemoDiff是一种基于上下文学习的AI分子设计系统,能够通过少量示例分子快速生成全新分子结构,显著提升药物和材料研发效率[6][7][8] - 该系统采用创新的节点对编码方法将分子描述效率提升5.5倍,原本需要38个原子描述的分子现仅需4个分子积木即可准确表达[9] - 在33个不同设计任务测试中表现优异,与比其大100-1000倍的大型语言模型相媲美,某些任务甚至更优[19][20] AI分子设计原理 - 模仿人类化学家思维过程,通过分析一组标记为正面、中等和负面示例的分子来理解功能与结构关系[10][11] - 基于扩散模型技术,采用渐进式生成方式,从随机分子结构开始经过数百步骤逐步优化至目标结构[16][17] - 具备独特负面学习能力,仅通过效果不佳分子示例就能反向推理设计出高质量分子,在新药开发早期阶段特别有价值[21][22] 技术创新点 - 开发节点对编码方法,类似汉字偏旁部首概念,用分子基团组合描述复杂结构,大幅提升计算效率[12][13] - 采用图注意力机制处理分子三维空间结构,保持全局理解同时确保化学合理性[23] - 模型规模经过优化测试,在7.39亿参数时达到性价比平衡点,性能随参数增加稳步提升[24] 数据基础 - 构建包含超过100万个分子结构和155万种分子属性记录的综合性数据库,涵盖药物和材料领域[9][14] - 数据来源包括ChEMBL药物数据库和各种材料科学数据库,组织成164万个设计任务[14][15] - 分子属性分布遵循齐普夫定律,既保证学习常见设计模式又接触多样化特殊案例[15] 性能表现 - 在六大类33个设计任务测试中表现全面,包括药物重发现、多目标优化、材料设计等[19] - 生成分子多样性优秀,提供多种解决方案,传统方法需数万次试验而DemoDiff仅需少量示例[19][20] - 在属性驱动设计任务中表现突出,能根据期望分子性质而非简单模仿结构进行创新设计[20] 应用前景 - 有望将药物研发周期从10-15年大幅缩短,降低数十亿美元开发成本[25] - 推动材料科学领域突破,在相互制约性能指标间找到平衡,如高强度轻量化航空材料[25] - 可能催生分子设计民主化,让不同背景研究人员参与创新,类似个人电脑普及对软件开发的影响[26] 发展展望 - 当前模型在处理精确控制分子结构细节任务时仍有局限性,未来需开发专业化模型变种[27] - 计划通过增加模型规模、扩展训练数据和优化方法提升处理复杂挑战能力[27] - 正与多家制药公司和材料研发机构合作,在实际项目中验证技术价值[28]
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 12:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]
深度|Andrej Karpathy:行业对Agent的发展过于乐观,一个能真正帮你工作的Agent还需要十年发展时间
Z Potentials· 2025-11-05 10:57
AI Agent发展路径与时间框架 - 行业认为AI Agent的发展将是一个长达十年的渐进过程,而非短期内能实现的突破,目前仍处于早期阶段[5][6] - 当前Agent系统在持续学习、多模态能力和熟练使用电脑等关键能力上存在明显短板,距离成为能真正协助工作的"员工"或"实习生"还有很大差距[7] - 正确的技术路径是先通过大型语言模型解决表示学习问题,再叠加行动与交互能力,早期试图直接构建全能Agent的尝试因缺乏强大表征能力而失败[9][10] AI与生物智能的本质差异 - AI系统是通过模仿人类和学习互联网数据构建的"数字化灵体",其优化机制与生物通过进化形成的智能存在根本区别[11][12] - 动物智能大部分由进化过程在基因层面预设,而非通过生命周期内的强化学习获得,人类在解决问题和推理等智力活动中并不主要依赖强化学习[13][14] - 预训练可被视为一种"低配版进化",同时完成知识积累和智能算法学习两重任务,但AI学习机制与人类睡眠中的记忆重组和抽象过程完全缺失[15][22] 大语言模型的技术特性与局限 - 模型在预训练阶段对训练数据形成的是"模糊回忆",而上下文学习则类似于人类的工作记忆,这是智能感鲜活呈现的关键[19][20] - Transformer架构可能对应于大脑的"通用皮层组织",但AI系统仍缺少许多关键脑区结构,如海马体和杏仁核对应的机制[21] - 模型坍缩问题表现为输出分布高度集中缺乏多样性,这直接影响合成数据生成的价值,而人类通过寻求外部熵来防止认知过拟合[48][51] 编程领域AI应用的现实状况 - 代码生成模型在处理高度定制化、结构独特的项目时表现不佳,最有效的使用方式仍是自动补全而非全自动Agent模式[30][33] - 编程成为AI最成功应用领域的原因包括文本中心交互、高质量训练语料、完备验证基础设施以及客观的评估标准[72][73] - AI在编程领域的进步更类似于编译器的进化而非程序员的完全替代,是计算机技术自然延伸的连续谱而非突变[38][39] 强化学习与训练数据挑战 - 强化学习被形容为"用吸管吮吸监督信号",整个长轨迹仅依靠最终一个比特信息进行参数调整,信号极其嘈杂[40][41] - 互联网预训练语料质量极差,模型大部分算力浪费在"压缩垃圾"上,未来突破关键在于数据集质量的跃升[58][59][63] - 过程监督面临自动化分配部分奖励的难题,LLM裁判易被对抗样本欺骗,需要新的算法思路而非简单迭代改进[44][46] AI产业发展趋势与影响 - 行业正变得更加务实,调整算力投资结构而非一味追求参数规模扩大,寻求不同阶段性价比最优配置[62] - AI对经济的影响将表现为任务级自动化而非职位完全替代,可能出现"AI协调层"管理尚未完全可靠的AI员工[68][69] - AI发展路径极不均衡,目前绝大多数经济价值集中在编程相关应用,而非均匀分布在所有知识性工作领域[71]
Meta拆掉AI持续学习路上的最大炸弹,“微调”又有了一战之力
36氪· 2025-10-27 13:13
持续学习的背景与路径 - 大型语言模型界正集体尝试突破持续学习和元学习能力的天花板,目标是实现模型的自我进化[1] - 实现持续学习的关键在于模型的“记忆”深度和可塑性,主流方法可归纳为三条主要路径[2] 路径一:改变上下文 - 通过修改模型的“工作记忆”,即上下文学习,使模型在当前对话中学会解决特定问题[4] - 最新进展是“系统提示学习”,模型通过语言层面的总结与归纳来反思成功与失败,并更新系统提示词以提升未来能力[4] - 此方法通过影响模型底层行为指令,使学习成果得以沉淀,解决了上下文学习浮于表面的问题[6] 路径二:引入外部记忆库 - 通过检索增强生成给模型配备外置数据库,持续学习体现在模型有能力更改、积累和维护此外部记忆库[7] - 谷歌DeepMind的“Reasoningbank”研究打造了一个“高级大脑记忆库”,存储从经验中总结出的“方法论”和“避坑指南”,而非零碎事实[7] - Anthropic的Claude Skill功能结合了上述两层方法,让智能体通过总结经验来学习新技能[9] 路径三:参数层面更新 - 此最根本的路径因训练开销巨大或方法不稳定而长期进展缓慢,例如强化学习和轻量化监督微调[9] - Meta AI的新论文《通过稀疏内存微调实现持续学习》为这条路径带来了根本性改变[9][11] 监督微调的挑战与Meta的解决方案 - 监督微调面临“灾难性遗忘”的根本矛盾,即学习新知识时会破坏存储旧知识的参数[11] - Meta提出的稀疏内存微调方法核心思想是只更新与“新知识”相关而与“旧知识”无关的参数[11] - 解决方案第一步是改造架构,将标准Transformer中的一些前馈网络层替换为拥有100万个“微型专家”的内存层,提供精细控制力[12][14][15] - 第二步引入TF-IDF算法精准定位既重要又安全的参数,即对新知识至关重要且不负责通用知识的参数[16][17][18][19][21] - 第三步进行稀疏更新,在反向传播时只允许梯度流向TF-IDF得分最高的Top-t个内存槽位,例如仅更新100万个槽位中的500个[22] 新方法的效果与优势 - 在学习新事实后测试原有任务表现,新方法仅导致分数下降11%,而LoRA下降71%,全量微调下降89%[23] - 新方法在学习能力上相当或更优,并在稳定性上具有压倒性优势,几乎治愈了监督微调的核心痛点[25][28] - 存储1000个新事实仅需占用约500个内存插槽,显示该方法具有持续学习海量新知识的巨大潜力[26] - 训练成本上,每一步需要更新的参数数量也远少于LoRA,降低了优化器的内存开销[26] 不同路径的比较与未来展望 - 非参数化学习路径存在根本尴尬,模型像依赖外部教科书或自己笔记的学生,未能真正内化知识[29] - 研究指出上下文学习泛化能力有限,因其过度关注统计特征而非任务根本规律[29] - 参数更新路径是更根本的解决方案,Meta的方案使其变得安全、稳定和可控[30][31] - 该进展意味着监督微调的春天可能来临,模型有望从静态工具转变为在经验流中不断成长的智能体[31][32]