文章核心观点 - Google DeepMind Generalist团队提出了一种名为“自我改进”的双阶段后训练方法,旨在让具身智能机器人通过自主交互与反复实践,持续提升技能并泛化到新任务,标志着AI从“被动执行”走向“主动学习”的能力跃迁 [1] - 该方法不依赖人工奖励设计,而是从预训练基础模型中自动导出奖励信号与成功判断,使多台机器人可在人类极简监督下并行练习,并在实验中展现出显著的性能提升和惊人的跨任务泛化能力 [2] - 研究强调,多模态基础模型预训练是后续自我改进阶段成功的基石,未来挑战将集中在技能链组合、长周期任务奖励推断等方面 [3][4] 方法框架 - 该方法借鉴大型语言模型的微调流程,提出两阶段训练后优化框架:第一阶段为监督微调,通过行为克隆和剩余步骤预测两个目标对预训练基础模型进行微调 [5][9][10] - 第二阶段为“自我改进”,利用模型预测的剩余步骤数构建密集奖励函数和鲁棒的成功检测器,使机器人能通过在线强化学习自主练习下游任务 [5][10][15] - 该框架无需真值奖励或大量人工奖励工程,其奖励函数本质上是一种塑形奖励,能使策略比数据集策略更高效地完成目标,同时通过隐式正则化确保策略稳定性 [14][15][34] 实验成果与样本效率 - 在LanguageTable场景中,仅增加10%的机器人自主练习时间,即可将Block2Block任务的成功率从45%提升至75%,而将模仿学习数据量扩大8倍,成功率仅能从45%提升至60% [2][12] - 在真实世界LanguageTable场景中,使用20%与80%规模模仿数据集训练后,自我改进阶段仅需额外收集约3%的任务经验,即可将策略成功率从约62%-63%提升至87%-88%,其性能远超使用80%模仿数据集训练的行为克隆策略 [44][45][46] - 在仿真Aloha单插入任务中,使用“5K模仿数据 + 2.5K自我改进经验”训练的策略,其性能超过使用10K模仿数据训练的策略,并接近使用15K模仿数据训练的策略 [48][49] 预训练基础模型的关键作用 - 消融实验表明,多模态预训练对自我改进流程的成功至关重要,使用完整PaLI视觉-语言模型作为奖励模型的效果显著优于随机初始化或单模态变体 [53][54][56] - 在20%数据集规模下,使用PaLI奖励模型的自我改进策略,其性能优于在80%数据集规模下使用单模态变体奖励模型的策略 [56] - 预训练基础模型提供的丰富视觉-语言语义基础,是自我奖励机制保持稳定与有效的前提 [3] 泛化能力 - 该方法展现出强大的跨任务与跨域泛化能力,在完全未见过的新任务(如“香蕉推送”BananaTable)中,能实现从零到85%成功率的自主学习 [2][63][64] - 该方法不仅能实现语义泛化,更能实现“行为泛化”,即让机器人练习并掌握超出第一阶段模仿数据集行为范围的全新技能 [7][13][63] - 在Real2Sim域迁移实验中,仅需在目标域额外收集3%的经验,自我改进就能将策略成功率从约22%提升至59%,性能与使用80%目标域模仿数据集训练的行为克隆策略相当 [61][62] 行业意义与未来方向 - 这项工作为具身智能的持续学习提供了系统性的工程与算法框架,并首次在大规模真实机器人实验中验证了“模型自我改进”的可行性与显著优势,为下一代通用机器人的自主进化奠定了基础 [4] - 未来关键挑战将集中在技能链组合、长周期任务中的奖励推断、训练稳定性与提前终止机制等方面 [4] - 行业研究指出,将预训练基础模型与在线自我改进相结合,对实现机器人自主技能获取具有变革性潜力 [8][13][85]
当机器人能自己教自己:DeepMind发布自我改进的具身基座模型
锦秋集·2025-09-19 16:41