Workflow
机器人学习
icon
搜索文档
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
机器之心· 2025-10-19 17:17
文章核心观点 - 香港大学团队提出了一种名为GPC(通用策略组合)的全新免训练框架,旨在提升机器人控制策略的性能 [2] - GPC框架通过在测试时对多个预训练模型的决策分数进行动态融合,创造出一个性能超越任何单一父策略的组合策略 [2] - 该框架打破了传统性能提升方式对数据和算力的依赖,能够灵活融合不同架构和模态的机器人策略 [2] 技术原理与理论基石 - GPC的核心思想是在机器人执行任务的瞬间,通过凸组合的方式将多个预训练策略的决策分数进行动态融合 [7] - 研究证明,对决策分数进行凸组合能够生成一个在单步上具有更低误差的组合分数,比任何单一策略的分数更精确 [9] - 通过建立Grönwall型界限,研究证明了单步的误差改善能够沿整个轨迹传播,确保组合策略在系统层面具有性能提升和稳定性 [10] - 理论公式表明,组合策略的轨迹采样误差低于任何单一策略的误差 [12] 框架通用性与组合机制 - GPC框架具备“即插即用”的通用性,以免训练的方式整合各种机器人策略 [14][15] - 其统一的分数凸组合机制能有效平衡来自不同条件的信息,生成更稳定、连贯的动作轨迹 [17] - 框架能够跨越策略架构进行组合,兼容基于扩散模型或基于流匹配的策略 [19] - 框架能够融合不同输入模态的策略,如视觉-动作模型、视觉-语言-动作模型等 [19] - GPC框架自然地连接了叠加原理,提供了Logical OR和Logical AND等更强大的组合操作符 [18][20] 权重搜索与性能优化 - GPC框架的权重搜索机制能为不同任务和场景量身定制最优的组合策略 [23] - 实验表明,当被组合的两个策略都具有中等准确率时,GPC能实现比单一基线策略更高的准确率,提升幅度最高达24% [24][26] - 当其中一个策略准确率显著较低时,GPC难以超越表现最好的基线策略的峰值性能 [26] - GPC性能的提升总是伴随着表现较好的基线策略获得更大权重时被最大化 [26] 实验验证与实际效果 - 在Robomimic、PushT等仿真测试平台上,GPC策略实现了最高7.55%的平均成功率提升 [28] - 在复杂的RoboTwin双臂协作任务上,GPC策略提升了7%的性能 [28] - 通过Logical AND组合,Diffusion Policy与Mamba Policy组合策略在Robomimic的Can任务上成功率提升至84%,较基线提升25.73% [30] - 真实世界采用PiPER机器人进行的实验显示,GPC在4个实际任务中对比单一基线成功率拥有5-10%的提升 [30]
通研院团队斩获CoRL 2025 杰出论文奖:UniFP 技术突破足式机器人力-位控制难题,系中国籍团队首次获此殊荣
机器人大讲堂· 2025-10-12 10:08
研究突破与核心成果 - 北京通用人工智能研究院团队的论文《UniFP: Learning a Unified Policy for Force and Position Control in Legged Loco-Manipulation》在2025年CoRL会议上从近千篇投稿中脱颖而出,荣获大会最高奖项杰出论文奖,这是该奖项首次由全中国籍学者团队获得[1] - 研究核心是提出了UniFP算法,这是足式机器人领域首个能在单一框架下统一处理力控制与位置控制的算法,改变了传统机器人需分别设计控制策略的局限[3] - UniFP通过一个力估计器实现了无传感器力感知,利用机器人的历史状态信息和动作数据反向估算出机器人受到的合外力[3][4] 技术原理与架构 - UniFP借鉴了生物力学中的阻抗控制原理,使机器人在与环境接触时能像弹簧-质量-阻尼器系统一样响应,通过调节刚性、阻尼和惯性参数展现不同交互特性[3] - 算法由神经网络构建,包含观测编码器、状态估计器和执行器三个核心模块,形成感知-决策-执行的完整控制闭环[7] - 状态估计器是策略实现力感知的核心,能从编码器信息中估算出无法直接测量的关键状态,如当前外力和末端位置[7] 实机验证与应用表现 - 在Unitree B2-Z1四足机械臂平台的实机测试中,UniFP能精准执行力控制,例如在给予25牛顿向上力指令时,可稳稳托住2.5公斤的哑铃[8] - 算法展现出多功能操作能力,包括自适应的力追踪和柔顺的阻抗控制,如在人机拔河实验中能根据被拉离目标位置的距离施加相应的回拉力[10] - 在力感知模仿学习中,UniFP方法在擦拭黑板、打开橱柜等四项接触密集型任务中,比仅依赖位置信息的传统方法成功率高出约39.5%[11] 通用性与行业影响 - UniFP展现出极强的泛化能力,不仅在Unitree B2-Z1四足机械臂上验证,还成功部署到Unitree G1人形机器人上实现稳定控制[13][14] - 该策略成为首个同时跨任务、跨形态、跨平台的统一力-位控制策略,打破了传统机器人控制算法需定制开发的行业瓶颈[14] - 研究成果标志着中国在机器人学习与具身智能领域的研究已跻身全球领先行列[1]
机器人感知大升级,轻量化注入几何先验,成功率提升31%
36氪· 2025-09-28 20:09
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
自动驾驶之心· 2025-08-21 17:04
招生项目与导师背景 - 宁波东方理工大学联合上海交通大学和中国科学技术大学招收机器人方向联培直博生 学生学籍注册于上海交大或中科大 第一年课程学习与科研工作在上海交大或中科大进行 之后科研工作在东方理工开展 双导师指导 毕业后获得上海交大或中科大的博士学位和毕业证书 [1] - 导师李晓聪为宁波东方理工大学助理教授 副研究员和博士生导师 兼任新加坡国立大学客座助理教授及哈佛大学工程与应用科学学院客座研究员 2013年和2017年分别获得新加坡国立大学学士和博士学位 曾任哈佛大学博士后以及新加坡科研局制造技术研究院科学家 研究方向为控制 学习与机器人交叉领域 累计获得千万级别科研资助 担任IEEE Transactions on Automation Science and Engineering和IEEE Robotics & Automation Magazine副主编 [1] - 实验室提供充足助研津贴和实验设备支持 关注学生身心健康和长期职业发展 学生主导科研工作 导师不抢占一作 课题组无横向项目 学生可专心基础研究 有专职行政助理处理行政事务 鼓励体育锻炼 为继续深造学生推荐国外博后机会包括新国立 南洋理工和哈佛等 [2] - 研究方向包括接触丰富机器人操作 具身智能 敏捷机器人控制和机器人学习等 [2] 具身智能之心知识星球社区 - 社区为国内首个具身智能全栈技术社区 集视频 图文 学习路线 问答和求职交流为一体 近2000人规模 目标未来2年内达到近万人规模 [3] - 社区提供技术问题解答包括设备使用 数据采集和VA VLA模型部署等 解决数据采集背景复杂或数据dirty问题 [3] - 社区完成产业 学术 求职和问答交流等多个领域闭环 分享前沿研究解决方案和求职岗位对接 [5] - 社区梳理近30+技术路线 包括benchmark 综述和学习入门路线 缩短检索时间 邀请数十个一线产业界和学术界大佬嘉宾答疑解惑 [5] - 社区与多家具身公司建立岗位内推机制 第一时间将简历送至心仪公司 [11] - 社区成员来自斯坦福大学 加州大学 清华大学 西湖大学 上海交大 上海人工智能实验室 港科大 港大 南洋理工 新加坡国立 ETH 南京大学等高校 以及智元机器人 有鹿机器人 云深处 优必选 傅里叶机器人 开普勒机器人 小米 星海图 银河通用 星尘智能 逐际动力等公司 [17] - 社区汇总近40+开源项目 近60+具身智能相关数据集 行业主流具身仿真平台以及各类技术学习路线 [17] - 社区福利包括第一时间掌握学术进展和工业落地应用 与行业大佬交流工作与求职问题 结识同行业伙伴 专属学习视频 工作岗位推荐和行业机会挖掘 [18] - 社区汇总国内外具身智能高校和公司 涉及教育 宠物 工业 救援 物流 交互和医疗等方向 [19][21][22] - 社区汇总大模型和人形机器人等行业研报 机器人相关书籍PDF 机器人零部件制造厂商 开源项目 ToF与3D相机 数据采集与开源数据 具身智能仿真平台 强化学习 VLA+RL 具身智能感知学习路线 具身智能交互 视觉语言导航 触觉感知 多模态大模型理解与生成 大模型微调与量化推理 VLA/VA相关 Diffusion Policy 机器人导航与规划 大模型部署 sim2real 机械臂抓取 双足与四足机器人以及四足/轮式+机械臂等内容 [24][27][29][31][33][35][37][39][41][43][45][47][49][51][53][55][57][59][61][62][64][66][68][71][73][75][76] - 社区不定期邀请行业大佬直播分享 直播内容可反复观看 [78] - 社区成员可自由提问工作选择或研究方向问题并得到解答 [80] 行业技术趋势与职业发展 - 自动驾驶领域人员逐渐转向具身智能相关 技术栈基本通用 视觉语言导航和大模型方向可作为转型选择 需具备深度学习和Transformer基础 或关注基于深度学习的SLAM方向如替代ORB算子的方法 端到端导航利用大模型思路也可切入 目前仍采用传统方法兜底 [82] - 具身智能行业处于探索期 对标自动驾驶17/18年阶段 窗口期尚未饱和 技术重点在大模型和端到端 非SLAM SLAM在消费级机器人中主要满足基本定位建图需求 精度打磨收益受边界递减效应影响 [84][85] - 具身智能平均薪资较高 初创公司一两年工作经验总包可达70-80 但稳定性较差 第一份工作需权衡技术积累与薪资导向 [84] - 转型建议选择具身头部大厂以获取更多技术和行业资源 [84]
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 08:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]