Workflow
Meta Learning
icon
搜索文档
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径,其长期预期是让模型在长程任务上出现新的scaling law,从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限,通过自我探索(self-exploration)和自我奖励(self-rewarding)实现自主知识生成,避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式,能够动态迭代整个AI系统智能,在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识,主要可拆分为两类:目标与手段明确的Lifelong Learning,以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线:直接通过RL和环境交互实现Lifelong Learning,或先做好Meta Learning再实现Lifelong Learning,后者可能提供更高上限[11][12] - Online Learning不同于Online RL,更强调模型在test-time具备学习能力,且实现方法不一定通过training,凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践,团队每2小时迭代更新模型,直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足,简单场景如代码补全Reward明确易获取,而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward,但现实中许多任务缺乏清晰reward信号,未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现:in-context learning(fast weight)和in-weights learning(slow weight),前者支持快速适应,后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系,确保策略能随新数据不断优化,同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分,即使模型参数不变,记忆积累也能改变策略,未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形,因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新,但非端到端架构限制学习效率,端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化,关键指标是性能提升斜率而非最终分数,可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 08:48
机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等 但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程 无法处理程序外情况 需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好 但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库 弥补常识缺失 实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求 如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合 任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级 北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性 使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向 可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大 但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制 降低操作门槛[6] - 餐饮自动化可能被彻底改写 需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限 难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题 可能生成不合理指令 需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视 如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象 需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]