in-weights learning
搜索文档
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径,其长期预期是让模型在长程任务上出现新的scaling law,从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限,通过自我探索(self-exploration)和自我奖励(self-rewarding)实现自主知识生成,避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式,能够动态迭代整个AI系统智能,在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识,主要可拆分为两类:目标与手段明确的Lifelong Learning,以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线:直接通过RL和环境交互实现Lifelong Learning,或先做好Meta Learning再实现Lifelong Learning,后者可能提供更高上限[11][12] - Online Learning不同于Online RL,更强调模型在test-time具备学习能力,且实现方法不一定通过training,凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践,团队每2小时迭代更新模型,直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足,简单场景如代码补全Reward明确易获取,而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward,但现实中许多任务缺乏清晰reward信号,未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现:in-context learning(fast weight)和in-weights learning(slow weight),前者支持快速适应,后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系,确保策略能随新数据不断优化,同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分,即使模型参数不变,记忆积累也能改变策略,未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形,因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新,但非端到端架构限制学习效率,端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化,关键指标是性能提升斜率而非最终分数,可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]