Meta Learning - 财报，业绩电话会，研报，新闻

Meta Learning

搜索文档

深度讨论 Online Learning ：99 条思考读懂 LLM 下一个核心范式｜Best Ideas

海外独角兽· 2025-09-30 20:06

Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径，其长期预期是让模型在长程任务上出现新的scaling law，从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限，通过自我探索（self-exploration）和自我奖励（self-rewarding）实现自主知识生成，避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式，能够动态迭代整个AI系统智能，在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识，主要可拆分为两类：目标与手段明确的Lifelong Learning，以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线：直接通过RL和环境交互实现Lifelong Learning，或先做好Meta Learning再实现Lifelong Learning，后者可能提供更高上限[11][12] - Online Learning不同于Online RL，更强调模型在test-time具备学习能力，且实现方法不一定通过training，凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践，团队每2小时迭代更新模型，直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足，简单场景如代码补全Reward明确易获取，而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward，但现实中许多任务缺乏清晰reward信号，未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现：in-context learning（fast weight）和in-weights learning（slow weight），前者支持快速适应，后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系，确保策略能随新数据不断优化，同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分，即使模型参数不变，记忆积累也能改变策略，未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形，因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新，但非端到端架构限制学习效率，端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化，关键指标是性能提升斜率而非最终分数，可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]

Artificial Intelligence

Artificial Intelligence

自诩无所不知的大模型，能否拯救笨手笨脚的机器人？

虎嗅· 2025-05-06 08:48

机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程无法处理程序外情况需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库弥补常识缺失实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制降低操作门槛[6] - 餐饮自动化可能被彻底改写需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题可能生成不合理指令需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]

机器人(SZ:300024)

Large Language Models (LLMs)

Large Language Models (LLMs)