Meta Learning
搜索文档
2025 AI 年度复盘:读完200篇论文,看DeepMind、Meta、DeepSeek ,中美巨头都在描述哪种AGI叙事
36氪· 2026-01-12 16:44
行业技术演进核心观点 - 2025年人工智能技术演进的核心特征是“暴力美学”时代的终结,行业从单纯堆砌参数转向基础研究,重点突破流体推理、长期记忆、空间智能和元学习等领域,以解决通往AGI的能力不平衡问题 [2] 技术能力进展量化评估 - 根据CHC认知理论框架评估,2025年AI在多项关键能力上取得显著进步:即时推理能力从2023-2024年的0%提升至2025年晚期的8%,长期记忆存储从0%提升至3%,视觉处理从0%提升至5%,工作记忆从2%提升至6%,数学能力在2025中期达到10% [3] - 部分能力在2025年达到平台期:一般知识在2025中期达到9%后持平,读写能力在2025中期达到10%后持平,数学能力在2025中期达到10%后持平,听觉处理在2025中期达到6%后持平 [3] - 处理速度在2025晚期达到6%,较2025中期的3%有所提升 [3] 流体推理与Test-Time Compute革命 - 2025年最重要的范式革新是Test-Time Compute的诞生,其核心理念是智能不仅是参数的函数也是时间的函数,代表模型如OpenAI o1和DeepSeek R1通过在推理阶段投入更多计算资源进行“慢思考”,实现了推理能力从0到8的质变 [6] - 强化学习是提升推理能力的关键手段,研究证实RL的作用在于锐化基座模型中已有的原子推理步骤分布,并通过“链接”阶段组合新推理方法以解决未知难题 [7] - 强化学习工程在2025年取得明显发展,评分系统革新体现为基于可验证奖励的强化学习和稀疏奖励指标的全面崛起,尤其在数学、代码等有明确对错的领域效果显著 [11] - 参数更新算法因DeepSeek R1的成功而震荡,GPRO算法因节省50%显存且效果不差成为主流,国内公司在此基础上发展出多种变体,如Qwen的GSPO引入分值加权,Minimax的CISPO采用重要性采样 [15] - Meta的ScaleRL研究证明RL性能增长符合Sigmoid曲线,存在天花板,无法无限提升智力上限,但当前离天花板尚远,最佳工程实践包括使用长思维链和如2048 prompts的大Batch Size [16][17] 记忆能力与架构突破 - 记忆能力是AGI得分中的短板,2025年后半年最重要的模型变革是记忆能力提升,研究围绕三种方式展开:上下文作为记忆、RAG处理过的上下文作为记忆、将上下文融合到参数内化记忆 [18][19] - Google Research发布的Titans架构及Nested Learning是2025年记忆领域的最大突破,从根本上挑战了Transformer的无状态假设,Titans是一个能在推理时实时更新参数的深度神经长期记忆模块,通过“惊奇度”决定信息存储 [19][21][22] - Nested Learning将模型架构分成低、中、高三种更新频率的神经网络层,使整个模型参数可随时调整,低频层更新慢保证知识延续性,高频层处理快速反馈,其成本比SFT和RL达成同等效果更低 [25][27] - RAG在2025年发生质变,从静态资料库演变为具备反思与进化能力的系统,代表如DeepMind的ReMem引入了Action-Think-Memory Refine全链路,对记忆进行修剪、重组和定期清理,实现了经验复用 [28][30] - 针对灾难性遗忘问题,2025年提出了多种参数更新解决方案,Meta的稀疏记忆微调通过在Transformer中加入空白内存层进行稀疏更新,在TriviaQA任务中仅导致11%的旧知识遗忘,远优于全量微调的89% [31] - Thinking Machines提出的在策略蒸馏结合了RL的采样方式和SFT的监督信号,让学生模型在自己实时生成的轨迹中学习,提供密集即时反馈,创造了低成本且不会导致灾难性遗忘的更新方式 [33] 空间智能与世界模型发展 - 视觉处理能力在2025年得到有效提升,主要围绕三个主流派系发展:自监督生成模型、基于3D CV生成的符号主义World Labs派、以及Meta的预测式V-JEPA派 [35] - 自监督生成模型方面,Google DeepMind发布的Genie 3能以24fps帧率和720p分辨率实时渲染可交互的3D环境,并维持数分钟的场景一致性,展现了从海量视频数据中自发学习物理规律的能力 [36] - 研究发现扩散Transformer也遵循Scaling Law,但对批量大小和学习率极为敏感,Google通过打通视频生成的Scaling Law成功训练了Veo 3 [37][38] - Apple研究发现,原生多模态的晚期融合架构相比早期融合架构可能存在上限劣势,但参数利用率更高,同等规模下上限更高 [40] - 快手提出的SVG模型通过直接用图像理解模型代替VAE,统一了语义空间,极大地提升了训练效率和生成速度,在多项核心指标上击败了DiT和SDXL [42] - 李飞飞领导的World Labs派推出了商业产品Marble平台,这是一个“大型世界模型”,能从多模态输入生成可探索的3D空间表示,依赖3D高斯泼溅和神经辐射场技术,更稳定可控 [44][46][47] - Meta的V-JEPA 2通过预测被遮挡视频内容的训练机制,迫使模型学习物理规律,在使用了100万+小时视频训练集后,涌现出了“推演”和反事实预测的能力,但处理跨度仅64帧(约10秒),分辨率384x384 [48][50] 元学习与学习方法演进 - 2025年对学习的核心探讨围绕元学习展开,即模型应具备“学习如何学习”的能力,以应对未知任务和实现低成本快速适应 [51][52] - 关于Transformer是否具备隐式元学习能力存在争论,有研究证明其注意力机制在数学形式上与梯度下降更新步骤类似,但也有研究认为上下文学习只是激活了预训练知识而非真正学习 [53] - Test-Time Compute为隐式元学习提供了新可能,研究尝试引导模型在推理过程中更有效地探索思维路径和分配算力,例如通过累积遗憾最小化策略来优化 [56][58] - DeepMind的DiscoRL通过内外双循环让AI自主发现学习算法,其自主发现的算法Disco57在雅达利基准上击败了人类设计的顶级算法,并展现了强大的泛化能力 [59][61] - Meta的“中训练”方法让Agent在专家演示的每一步尝试备选动作并反思,建立起因果模型,能显著提升在复杂环境中的成功率(平均提升9.6%)并增强泛化能力 [61][63] - 神经科学研究为AI架构提供启示,研究表明大脑通过“动态路由”机制将结构化的神经子空间重新连线以执行新任务,这推动了2025年对模型进行分区(如记忆分区、快慢反应组别)的尝试 [64][66] 基础架构与训练范式演进 - 为对抗Scaling Law瓶颈,行业通过稀疏性、合成数据与强化学习结合实现突破,例如OpenAI在GPT-5.2中采用MoE、合成数据与RL加强三方结合 [68] - 合成数据方面,随着推理能力进步,模型可自主生成长思维链文本,DeepSeek R1的论文表明,利用其生成的长思维链对小模型进行微调,效果远超人类专家编写的CoT数据 [69] - 数据质量重于数量,研究证明筛选前10%推理路径最长、最复杂的样本进行训练,其效果可匹配甚至超越全量数据集 [70] - 针对大规模使用合成数据可能导致“模型崩溃”的问题,研究提出了利用自我验证机制过滤数据的方法,证明只要校准误差在一定界限内,仅凭自我验证就可在完全合成数据体制下持续训练而不崩溃 [72] - 模型蒸馏在2025年取得两大进步:针对MoE架构的特化蒸馏方案《Every Expert Matters》,让学生模型学习教师不同专家的组合输出;以及思维融合蒸馏,通过共识去噪原理将多个教师的稳健推理逻辑迁移给学生模型 [75][77] - 注意力机制方面,2025年是MLA及其变体普及的时代,同时线性注意力复归,Kimi Linear采用3:1混合架构,在1M超长上下文任务中达到94.8的高分,性能首次全面超越全注意力,且吞吐量可达全注意力的6.3倍 [80][81] - 行业出现向连续空间演进的趋势,代表如大型概念模型和腾讯的CALM,试图将多个Token压缩为连续概念向量进行预测,以增加语义带宽和提升效率 [83][85] 2026年潜在技术方向展望 - 记忆能力的工程化实践将成为重点,理论方向已明确,预计研究成果可能在一年内工程成熟并被采用,完成范式转换,更具学习性的记忆系统将被产品化 [87] - 标准架构可能发生变革,趋势是向分区、分层、增加更多功能层的混合架构演进,例如加入Titans记忆层或进行层级分区,以更符合人脑运作模式 [88][89] - 自进化AI探索将在2026年产生更多可能性,现有尝试包括让模型自问自答进行强化学习,以及像Alpha Evolve那样让LLM优化算法代码,但尚属早期阶段 [90][91][93]
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
Online Learning的战略意义 - Online Learning被视为通往L4+级别智能和AGI的关键路径,其长期预期是让模型在长程任务上出现新的scaling law,从而实现智能水平的极大提升[4][5] - 该技术范式的核心在于推动模型突破现有人类知识上限,通过自我探索(self-exploration)和自我奖励(self-rewarding)实现自主知识生成,避免在人类知识内循环[5] - Online Learning代表了一种新的交互和推理形式,能够动态迭代整个AI系统智能,在实现极致个性化的同时推动模型能力持续进化[4][16] 概念定义与技术路径 - 当前对Online Learning的定义存在非共识,主要可拆分为两类:目标与手段明确的Lifelong Learning,以及目标明确但手段不清晰的Meta Online Learning[9][10] - 技术路径上存在两条不完全重合的路线:直接通过RL和环境交互实现Lifelong Learning,或先做好Meta Learning再实现Lifelong Learning,后者可能提供更高上限[11][12] - Online Learning不同于Online RL,更强调模型在test-time具备学习能力,且实现方法不一定通过training,凡能让系统在交互中改变未来行为的机制都可称为Online Learning[13][14] 实践案例与瓶颈分析 - Cursor的代码补全模型训练可能是Online Learning的现实实践,团队每2小时迭代更新模型,直接使用真实用户反馈而非专门训练reward model[6][8] - 核心瓶颈在于Reward信号获取和模型in-context learning能力不足,简单场景如代码补全Reward明确易获取,而复杂场景如多步Agent任务Reward稀疏难定义[23][24] - Online Learning非常依赖从环境或用户交互中提取reward,但现实中许多任务缺乏清晰reward信号,未来发展方向应是让模型具备自我生成reward的能力[25] 实现机制与技术架构 - Online Learning可通过两种机制实现:in-context learning(fast weight)和in-weights learning(slow weight),前者支持快速适应,后者提供持久记忆[26][27] - 架构上需要设计能持续收集新数据并影响输出的体系,确保策略能随新数据不断优化,同时模型需具备数据筛选能力以提升学习效率[29][30] - Memory是Online Learning的重要组成部分,即使模型参数不变,记忆积累也能改变策略,未来需发展自主context engineering和记忆管理能力[32][33] 行业应用与评估范式 - Coding等高反馈、任务明确领域可能率先展现Online Learning雏形,因反馈明确、信息密度高、数据获取成本低且环境高度可控[18] - 推荐系统已实现分钟级更新,但非端到端架构限制学习效率,端到端生成式推荐系统才可能让Online Learning真正发挥作用[36][37] - 评估范式需变化,关键指标是性能提升斜率而非最终分数,可通过"新游戏"测试模型在全新环境中的即时学习过程[45][46]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 08:48
机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等 但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程 无法处理程序外情况 需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好 但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库 弥补常识缺失 实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求 如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合 任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级 北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性 使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向 可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大 但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制 降低操作门槛[6] - 餐饮自动化可能被彻底改写 需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限 难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题 可能生成不合理指令 需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视 如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象 需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]