Workflow
模仿学习
icon
搜索文档
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 18:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
机器之心· 2025-07-14 12:08
强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳,探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略,适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法,将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题:提升探索效率和时间连贯动作序列,实现快速值传播[5] - 使用动作分块实现快速价值回传,并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练,再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间,预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播,消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性,使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试,包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力,在线阶段样本效率高,尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法,突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作,状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN,解释其更高样本效率[29][32]
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
保姆级分享!ALOHA:低成本双臂机器人结合模仿学习经典工作
具身智能之心· 2025-06-27 16:36
ALOHA系统概述 - 一种低成本开源的双臂遥控操作系统,全称为A Low-cost Open-source Hardware System for Bimanual Teleoperation [4][5] - 成本控制在20k美元以内,使用现成机械臂和3D打印组件,2小时可完成组装 [7][8] - 支持精确操作、接触式操作和动态操作三类任务 [20][22] 核心技术方案 - 采用关节空间映射实现遥控操作,使用WidowX作为主动臂控制ViperX从动臂 [18] - 系统配备4个罗技C922x摄像头(480×640@30FPS),数据记录频率50Hz [19] - 设计了3D打印"透明手指"和防滑胶带增强抓取能力,采用橡皮筋机构平衡重力 [18][21] ACT算法创新 - 提出Action Chunking with Transformers算法解决模仿学习的复合误差问题 [12] - 通过预测k步动作序列(k=100时成功率从1%提升至44%)减少有效任务范围 [52][53] - 引入Temporal Ensembling技术平滑动作执行,提升3.3%成功率 [29][54] - 采用CVAE建模人类演示数据,对人工数据训练时性能提升33.3% [33][55] 实验验证 - 在6个真实任务和2个仿真任务上测试,仅需10-20分钟演示数据 [51] - 调味瓶开启任务达到80-90%成功率,RAM安装等接触任务表现良好 [12][22] - 50Hz控制频率显著优于低频(5Hz时操作时间增加62%) [56] 应用限制 - 无法处理需要多指协同(如儿童药瓶)或大力操作(如开密封瓶)的任务 [57] - 对精细视觉感知要求高的任务(如开糖果包装)成功率较低 [60][61] - 低成本电机扭矩限制导致无法完成某些力量型操作 [57]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
自动驾驶之心· 2025-06-24 10:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题 通过执行感知机制和轻量化网络架构实现高效任务切换 无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当 参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新 任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷 任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求 现有方法无法处理"执行中途切换任务"的情况 导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限 大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展 基于规则的方法缺乏智能性 [8][10] 方法论 任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入 通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类 接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块 整合任务切换特征 机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据 通过时间逆序数据生成rollback动作 通过状态插值生成advance动作 [16] - 提出随机采样算法 根据任务切换表示动态分配对应动作类型 保持方法可扩展性 [16] 实验结果 性能对比 - 单任务场景 成功率93% 与π0(92 3%)相当 参数量仅为后者8 2% [20][21] - 任务切换场景 在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试 在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题 成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人 结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力 实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 23:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 11:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]