行为克隆
搜索文档
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
机器人跳群舞,有啥“基本功”
人民日报· 2025-08-19 06:31
机器人技术突破 - 北京舞蹈学院与湖北光峰东智联合代表队凭借9台"光子"机器人夺得2025世界人形机器人运动会群体舞蹈冠军 机器人通过惯性传感器 力传感器和视觉系统实现毫秒级动作调整与队形控制 [1] - 湖北光峰东智对机器人硬件加大电源和驱动电机功率 软件层面深度定制运动控制算法并进行仿真强化以优化性能 [2] - 深圳鹿明机器人运用行为克隆和自适应轨迹跟踪技术 使4台"LUS2"机器人在模拟环境中经过10多小时学习试错后自主生成差异化舞蹈动作 [2] 跨系统协同创新 - 海毅欧智能科技采用自主研发的跨平台控制系统和动作重定向技术 实现3台不同品牌 型号的机器人协同表演并获得季军 [3] - 该技术突破不同机器人系统间的壁垒 为规模化应用和集群化运作提供可行性 提升整体智能化水平与应用效率 [3] 文化科技融合 - 秦俑装扮的机器人演绎《秦俑魂》舞蹈 构建新型舞台叙事关系并使经典文化符号通过科技获得新表达 [1][2] - 机器人需模仿人类舞者风格优化动作细节 实现自然流畅的舞蹈表演 [1]