模仿学习

搜索文档
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 16:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
保姆级分享!ALOHA:低成本双臂机器人结合模仿学习经典工作
具身智能之心· 2025-06-27 16:36
ALOHA系统概述 - 一种低成本开源的双臂遥控操作系统,全称为A Low-cost Open-source Hardware System for Bimanual Teleoperation [4][5] - 成本控制在20k美元以内,使用现成机械臂和3D打印组件,2小时可完成组装 [7][8] - 支持精确操作、接触式操作和动态操作三类任务 [20][22] 核心技术方案 - 采用关节空间映射实现遥控操作,使用WidowX作为主动臂控制ViperX从动臂 [18] - 系统配备4个罗技C922x摄像头(480×640@30FPS),数据记录频率50Hz [19] - 设计了3D打印"透明手指"和防滑胶带增强抓取能力,采用橡皮筋机构平衡重力 [18][21] ACT算法创新 - 提出Action Chunking with Transformers算法解决模仿学习的复合误差问题 [12] - 通过预测k步动作序列(k=100时成功率从1%提升至44%)减少有效任务范围 [52][53] - 引入Temporal Ensembling技术平滑动作执行,提升3.3%成功率 [29][54] - 采用CVAE建模人类演示数据,对人工数据训练时性能提升33.3% [33][55] 实验验证 - 在6个真实任务和2个仿真任务上测试,仅需10-20分钟演示数据 [51] - 调味瓶开启任务达到80-90%成功率,RAM安装等接触任务表现良好 [12][22] - 50Hz控制频率显著优于低频(5Hz时操作时间增加62%) [56] 应用限制 - 无法处理需要多指协同(如儿童药瓶)或大力操作(如开密封瓶)的任务 [57] - 对精细视觉感知要求高的任务(如开糖果包装)成功率较低 [60][61] - 低成本电机扭矩限制导致无法完成某些力量型操作 [57]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
自动驾驶之心· 2025-06-24 10:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题 通过执行感知机制和轻量化网络架构实现高效任务切换 无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当 参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新 任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷 任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求 现有方法无法处理"执行中途切换任务"的情况 导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限 大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展 基于规则的方法缺乏智能性 [8][10] 方法论 任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入 通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类 接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块 整合任务切换特征 机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据 通过时间逆序数据生成rollback动作 通过状态插值生成advance动作 [16] - 提出随机采样算法 根据任务切换表示动态分配对应动作类型 保持方法可扩展性 [16] 实验结果 性能对比 - 单任务场景 成功率93% 与π0(92 3%)相当 参数量仅为后者8 2% [20][21] - 任务切换场景 在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试 在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题 成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人 结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力 实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 23:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 11:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
这些大专生,教出人形机器人
盐财经· 2025-03-25 18:39
文| 朱秋雨 赖丁萌(实习生) 编辑| 向由 值班编辑 | 宝珠 视觉 | 顾芗 中国人形机器人赛道最近"好消息"不断。 前有深圳的众擎机器人完成全球首例前空翻,后有杭州宇树科技机器人实现720度回旋踢。3月11日,前 华为天才少年"智晖君"创立的智元机器人,发布了人形机器人灵犀X2。在视频里,机器人不仅可以像人 一样走路、跑步,还能玩滑板车、骑自行车。 人们正通向"机器人养老"的美好愿景,而现在,一个新工种随着具身机器人的火爆而出现。在Boss直 聘、实习僧等求职APP上,一些公司正招聘学历要求大专以上,名叫"机器人数据采集员"的岗位。 在Boss直聘等求职APP上,一些公司正招聘"机器人数据采集员"的岗位 这份工作的主要内容包括:负责机器人数据采集工作、控制机器人正确移动、保护机器人处于安全状 态,等等。 除此以外,很多岗位还列出了对人的外形的要求,有的是,"不戴眼镜,没有高度近视";有的要求"男生 身高170-175,体重65公斤以内;女生160-168,体重55公斤内";还有的公司要求,"不能有小肚子,身 体协调性较好,细心、灵活、有控制力"。 这些岗位成功引起了众人的注意。人们不禁好奇:机器人的数据 ...