机器人学习
搜索文档
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室
机器之心· 2026-02-20 07:43
研究背景与核心问题 - 现有VLA模型的研究和基准测试多局限于家庭场景,缺乏对专业科学场景(尤其是生物实验室)的适配[2] - 生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界面)等特点,是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景[2] - 该研究旨在系统性回答:当前主流的视觉-语言-动作(VLA)模型,是否已经具备在真实生物实验室中执行实验流程的能力[4] 生物实验室的自动化挑战 - 实验操作具有长时序和强约束特征,其组合构成对顺序一致性和状态依赖高度敏感的完整流程[6] - 实验器材大多数为交互式,广泛采用螺纹、卡扣、分档旋钮等精细机械结构,对位姿控制和轨迹规划要求远高于常规操作[7] - 液体样本与透明容器的普遍存在,对视觉感知提出了更大挑战,这类场景在现有仿真与评测体系中长期被简化或忽略[8] - 上述因素导致,即便在家庭或工业场景中表现良好的模型,也可能在实验室任务中迅速失效,表明现有基准不足以反映模型在科研场景下的真实能力边界[8] AutoBio仿真系统的核心设计 - AutoBio提出一种以生物实验语义为中心的建模与评测范式,并非简单复刻实验室环境[11] - 将复杂实验操作抽象为一组生物实验原语(例如样本转移、混合反应、条件调控、分离与保存等),并映射为可执行的机器人运动与控制模块,在统一仿真环境中进行组合[11] - 系统由三部分构成:面向真实实验室的高保真仿真系统;覆盖多难度等级的标准化实验任务基准;与VLA模型直接兼容的数据生成、训练与评测接口[16] - 该设计使AutoBio能够在保持实验语义一致性的前提下,对不同模型进行可复现、可对比的系统评估[12] AutoBio仿真系统的技术实现 - 在实验仪器数字化建模方面,通过多视角视频采集与3D Gaussian Splatting重建,结合CAD建模与结构标注,生成高保真且物理可交互的数字仪器模型,兼顾视觉真实性与物理可交互性[13][14] - 针对生物实验高频操作扩展了一系列专用物理机制,包括基于螺纹结构的旋拧与自锁建模、具有离散阻尼特性的分档旋钮、偏心机构驱动的周期性振荡、面向液体样本的准静态液面建模等[17][21] - 在渲染层面引入基于物理的渲染(PBR)管线,以提升透明材料、液体以及仪器表面的视觉真实性,并支持仪器数字界面的动态渲染,使机器人能够通过视觉信号读取参数与识别状态变化[19] AutoBio评测基准与模型表现 - AutoBio构建了一个包含16个任务的评测基准,覆盖简单、中等、困难三个难度等级[9][21] - 简单任务为单步或低精度操作(如打开或关闭仪器盖);中等任务需要一定精度和语言理解能力(如拧开离心管、样本转移);困难任务涉及多模态推理(如读取屏幕参数并精确调节实验设备)[22] - 评测结果显示,在简单任务上,模型已表现出较高成功率;但当任务涉及高精度装配、液体判断或屏幕读数时,成功率显著下降;失败往往源于细节误差的持续累积[26] - 这一结果揭示出当前VLA模型在高精度操作、细粒度视觉推理以及长期实验流程建模方面仍存在显著不足[26] 研究总结与意义 - AutoBio提供了一个面向生物实验室的统一仿真与评测框架,使研究者能够系统性分析机器人在真实科研场景中的能力与局限[29] - 其目标是通过清晰的问题定义和可复现的评测体系,为通用机器人走向科研自动化提供一个坚实的起点,而非给出最终解决方案[30] - 随着相关技术的发展,AutoBio有望成为连接机器人学习与生命科学自动化的重要基础设施[31]
打破机器人“数据饥荒”僵局:锦秋被投企业星尘智能联合清华、MIT等发布CLAP框架|Jinqiu Spotlight
锦秋集· 2026-01-21 23:36
文章核心观点 - 锦秋基金被投企业星尘智能与顶尖学术机构联合提出CLAP框架,该框架通过对比学习将人类视频中的运动空间与机器人动作空间对齐,使机器人能够直接从海量互联网视频中学习技能,有望解决机器人学习长期面临的“数据饥荒”与“视觉纠缠”难题,并显著降低机器人技能获取的成本与门槛 [4][9][10] 技术框架详解 - CLAP框架旨在建立统一的视觉-语言-动作模型,其核心是通过对比学习进行隐空间动作预训练,将人类视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,从而弥合无标注人类视频与有标注机器人轨迹之间的语义鸿沟 [9][14] - 研究团队基于两种VLA建模范式进行分层策略训练:CLAP-NTP是一种自回归模型,擅长指令跟随与任务规划;CLAP-RF则采用Rectified Flow策略,面向高频率、精细化的操控 [10][16] - 为解决模型微调中的灾难性遗忘问题,框架引入了知识匹配正则化策略,确保机器人在学习新技能时不会丢失已掌握的能力 [11][16] 实验结果与性能 - 在真实世界任务性能测试中,CLAP框架显著优于基线方法。例如,在“Pick and Place”任务中,CLAP-RF的拾取成功率为90%,放置成功率为85%;在“Pack the Doll”任务中,CLAP-RF的成功率为70% [20] - 在环境扰动下的鲁棒性评估中,CLAP-RF同样表现优异。在原始设置下,其“Pick and Place”成功率为90%,“Close”成功率为70%;在背景变化和光照变化等干扰下,性能保持稳定,平均成功率高达66.7%,远超其他基线模型 [21] 产业应用前景 - CLAP框架使机器人能够从YouTube、抖音等平台的“数以亿计”的人类行为视频中学习技能,极大扩展了可用训练数据的规模,解决了机器人学习的“数据饥荒”问题 [4][10] - 这种“看视频学技能”的方式显著降低了机器人技能获取的硬件、环境和人工标注成本,有望大幅降低企业部署机器人的成本和周期,加速机器人在服务业、制造业等领域的规模化应用 [4][10][11]
你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心· 2026-01-20 08:33
文章核心观点 - 上海交大等研究团队提出GM-100基准测试,旨在解决当前机器人学习领域数据集任务设计单一、评估标准不统一的问题,通过100项多样化、具挑战性的任务全面评估机器人智能体能力,并推动行业向任务多样化与复杂化发展 [1][4] 现有机器人数据集与评估的局限性 - 当前主流数据集如Open X-Embodiment整合了22种机器人、160,266项任务,Agibot收集了超过100万条轨迹,RoboCOIN为421项任务提供了18万余条演示数据,但任务设计多集中于“拾取并握持”等常见行为,缺乏对复杂和长尾任务的覆盖 [3] - 任务设计的单一化导致训练出的模型存在显著偏差,作为预训练模型时,在真实场景中的适用性受限 [3] - 多数研究在提出新方法时,仅在少数常见任务上测试,且缺乏统一标准,使得不同研究成果之间难以进行公平对比 [3] GM-100基准测试的设计理念与方法 - GM-100包含100项精心设计的任务,旨在涵盖各类交互场景与长尾行为,其设计基于对现有任务设计的系统性分析与扩展,并结合了人类-物体交互基元与物体功能特性的相关洞见 [1][4] - 任务设计不以真实世界任务的实用性为标准,而是将物理常识与底层操作知识作为生成与筛选任务的唯一准则,以避免人为偏差 [4] - 设计过程首先收集并分析现有研究(如Agibot、Open X-Embodiment)的任务,去重分类后,参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,利用大型语言模型(如Qwen3)自动生成大量候选任务,再通过模型评分和五名人类专家筛选,最终确定高质量、可执行的任务 [9][10] GM-100的数据收集与实验设置 - 通过遥操作方式在GM-100任务上收集了一个中型数据集,包含超过13,000条轨迹 [11][13] - 数据收集在两款不同的机器人平台(Agilex Cobot Magic和Dobot Xtrainer)上进行,两款平台具有不同的运动学结构、双臂设计和主相机视角,以提供多样化数据 [14] - 对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,以确保多样性,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐 [17] - 为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP以及多个视觉-语言-动作模型,VLA类模型基于每个任务收集的100条轨迹进行微调 [18] GM-100的评估结果与特性 - 实验结果表明,GM-100的任务具备可执行性以及足够的挑战性,能够有效区分当前视觉-语言-动作模型的性能 [2][4] - 在Xtrainer平台的实际场景性能评估中,不同模型的平均成功率(SR)在1.6%至53.9%之间,部分成功率(PSR)在4.4%至32.1%之间,整体成功率较低,凸显了任务的固有挑战性 [20] - 评估采用了成功率、部分成功率和动作预测误差(均方误差和L1损失)等多个指标,以全面反映模型性能 [22]
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了
具身智能之心· 2026-01-19 17:30
文章核心观点 - 现有机器人学习数据集和任务设计存在系统性缺陷,过于集中于少数常见任务(如“拾取并握持”),缺乏对复杂和长尾任务的覆盖,导致训练出的模型存在显著偏差,在真实场景中的适用性受限[2][3][5] - 为应对上述问题,上海交通大学等研究团队提出了GM-100基准测试,这是一个包含100项精心设计、多样化且具挑战性的任务集合,旨在全面评估机器人智能体能力,并推动数据集任务设计向多样化与复杂化方向发展[2][4] - GM-100基准测试的任务设计基于对人类-物体交互原语和物体功能特性的系统性分析,而非主观实用性标准,确保了任务的多样性和物理合理性[4][9] - 实验结果表明,GM-100的任务具备可执行性和足够的挑战性,能够有效区分当前主流视觉-语言-动作模型的性能[2][4] 提出的背景与问题 - **现有数据集概况**:Open X-Embodiment整合了22种不同机器人的数据集,包含160,266项任务;Agibot收集了200余项任务及超过100万条轨迹;RoboCOIN为421项任务提供了18万余条演示数据[3] - **任务设计缺陷**:去除重复项并按语义分类后,发现大多数任务集中于“拾取并握持”等极为常见的行为,缺乏对复杂任务与长尾任务的覆盖[3][5] - **评估标准问题**:多数研究在提出新方法时,仅在少数常见任务上进行测试,且缺乏统一的任务设计标准,使得不同研究成果之间难以进行公平对比[3] GM-100的任务设计方法 - **设计原则**:依据人类动作合理性设计机器人任务,旨在构建一组多样化的任务,涵盖广泛的交互场景,同时考虑动作的耦合性,并确保长尾、稀有但重要的动作得到体现[9] - **设计流程**: 1. 基于以往研究选择基础交互动作,收集任务并去重分类[9] 2. 参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,扩展和补充任务列表[9] 3. 利用大型语言模型(如Qwen3)基于精心设计的提示词自动生成大量候选任务[10] 4. 通过大型语言模型和五名人类专家对生成任务的机器人可执行性进行评分和筛选,获得高质量任务[10] - **任务筛选与构建**:根据任务得分确定优先级,为高优先级任务设计具体交互细节并筛选物体,制定明确的任务完成评估标准,并录制人类完成任务的模板视频以指导数据收集[10] - **最终集合**:考虑到工作量,选取100个任务组成GM-100基准测试集,作为该系列的首个版本[11] 数据收集与硬件平台 - **数据规模**:通过遥操作方式在GM-100任务中收集了一个中型数据集,包含超过13,000条轨迹[11][13] - **硬件平台**:采用两款机器人平台进行数据集收集和评估: - Agilex Cobot Magic:类Mobile-Aloha型机器人平台,采用前伸式手臂结构并配备头戴式相机[14] - Dobot Xtrainer:类Aloha型平台,采用内折式手臂结构并提供俯视相机视角[14] - **收集进展**:当前版本中,在Cobot Magic平台上完成了全部100个任务的数据收集,在Xtrainer平台上完成了10个任务的数据收集[16] - **数据分布**:对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐[17] 实验评估与结果 - **基线模型**:为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP和多个视觉-语言-动作模型[18] - **评估指标**: - 成功率:固定尝试次数内成功完成任务的百分比[22] - 部分成功率:任务中成功完成的子任务百分比[22] - 动作预测误差:预测动作与真实动作之间的均方误差和L1损失[22] - **性能结果**: - 在Xtrainer平台的实际场景性能测试中,各模型的平均成功率在1.6%至24.9%之间,平均部分成功率在7.0%至53.9%之间,整体成功率较低,凸显了任务的挑战性[20][22] - 图4和图5展示了在Cobot Magic平台的部分成功率以及各模型在任务层面的归一化均方误差与部分成功率对比[24][26]
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
机器之心· 2025-10-19 17:17
文章核心观点 - 香港大学团队提出了一种名为GPC(通用策略组合)的全新免训练框架,旨在提升机器人控制策略的性能 [2] - GPC框架通过在测试时对多个预训练模型的决策分数进行动态融合,创造出一个性能超越任何单一父策略的组合策略 [2] - 该框架打破了传统性能提升方式对数据和算力的依赖,能够灵活融合不同架构和模态的机器人策略 [2] 技术原理与理论基石 - GPC的核心思想是在机器人执行任务的瞬间,通过凸组合的方式将多个预训练策略的决策分数进行动态融合 [7] - 研究证明,对决策分数进行凸组合能够生成一个在单步上具有更低误差的组合分数,比任何单一策略的分数更精确 [9] - 通过建立Grönwall型界限,研究证明了单步的误差改善能够沿整个轨迹传播,确保组合策略在系统层面具有性能提升和稳定性 [10] - 理论公式表明,组合策略的轨迹采样误差低于任何单一策略的误差 [12] 框架通用性与组合机制 - GPC框架具备“即插即用”的通用性,以免训练的方式整合各种机器人策略 [14][15] - 其统一的分数凸组合机制能有效平衡来自不同条件的信息,生成更稳定、连贯的动作轨迹 [17] - 框架能够跨越策略架构进行组合,兼容基于扩散模型或基于流匹配的策略 [19] - 框架能够融合不同输入模态的策略,如视觉-动作模型、视觉-语言-动作模型等 [19] - GPC框架自然地连接了叠加原理,提供了Logical OR和Logical AND等更强大的组合操作符 [18][20] 权重搜索与性能优化 - GPC框架的权重搜索机制能为不同任务和场景量身定制最优的组合策略 [23] - 实验表明,当被组合的两个策略都具有中等准确率时,GPC能实现比单一基线策略更高的准确率,提升幅度最高达24% [24][26] - 当其中一个策略准确率显著较低时,GPC难以超越表现最好的基线策略的峰值性能 [26] - GPC性能的提升总是伴随着表现较好的基线策略获得更大权重时被最大化 [26] 实验验证与实际效果 - 在Robomimic、PushT等仿真测试平台上,GPC策略实现了最高7.55%的平均成功率提升 [28] - 在复杂的RoboTwin双臂协作任务上,GPC策略提升了7%的性能 [28] - 通过Logical AND组合,Diffusion Policy与Mamba Policy组合策略在Robomimic的Can任务上成功率提升至84%,较基线提升25.73% [30] - 真实世界采用PiPER机器人进行的实验显示,GPC在4个实际任务中对比单一基线成功率拥有5-10%的提升 [30]