Workflow
模仿学习
icon
搜索文档
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhuoling Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与背景 动态物体操作(如传送带装配线上的产品处理)是提升工业制造效率的关键,但传统方法需针对不同场景进行专门设计,存在耗时、泛化能力弱等问题。模仿学 习通过专家演示训练机器人策略,是解决该问题的潜在方案,但现有方法依赖大量演示数据,而动态场景的演示收集成本极高。这里旨在探索:仅通过少量演 示,能否实现动态物体操作的强泛化能力? 工作的核心贡献 动态物体操作的挑战与现有方法局限 提出基于熵的理论框架,量化模仿学习的优化过程,指导低数据需求的泛化操作系统设计; 开发 GEM(Generalizable Entropy-based Manipulation)系统 ,结合目标中心几何感知与混合动作控制,实现动态物体操作的强泛化; 在真实场景(食堂餐具收集)中验证了GEM的有效性,无需现场演示即可实现97%以上的成功率 ...
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 21:50
自动驾驶体验对比 - 理想VLA在园区内主副驾无人场景下表现优秀 具备基于语言指令的精准控制能力 但受限于封闭环境无法验证泛化能力 [1] - 与特斯拉FSD对比 北美用户认为FSD在自然度和拟人化驾驶方面更胜一筹 接近自动驾驶水平 而理想VLA在顺义路况下仍有明显"机器感" [1] - 公开道路测试显示 在非高峰期的顺义路况下 VLA在安心感/舒适度/效率上较L系列VLM有显著提升 但窄路和村庄场景表现欠佳 [2] 核心用户体验差异 - 红绿灯刹停过程表现出色 丝滑无顿挫感 显著优于普通驾驶者和多数竞品 形成明显代际差体验 [3] - 变道/超车等常规操作难以体现差异化 但刹车品质成为最易感知的优势项 类比"老司机"驾驶水准 [4] - 语音控车功能具备路线记忆和个性化设置能力 在L4实现前可形成独特用户体验优势 [10] 技术迭代路径 - VLA采用强化学习范式 相比VLM的监督学习具备四大迭代方向:仿真数据优化/芯片算力提升/模型参数量增长/语音工程优化 [7] - 强化学习在自动驾驶领域优势显著 奖励函数明确(安全/舒适/效率) 可针对具体场景持续优化 突破模仿学习的炼丹局限 [8][9] - 当前运行4B参数模型 未来7B/14B乃至100B参数模型将带来能力飞跃 芯片算力提升是关键支撑 [7] 产品化逻辑 - 技术团队需平衡模型能力与用户体验 互联网时代产品体验优先 AI时代需兼顾技术突破与体验优化 [10] - 自动驾驶首要目标是超越80%普通驾驶者 逐步向95%水准迈进 刹车品质成为首批达标的关键指标 [4]
质疑VLA模型、AI完全不够用?有从业者隔空回应宇树王兴兴
第一财经· 2025-08-11 22:51
2025.08. 11 本文字数:1430,阅读时长大约3分钟 作者 | 第一财 经 刘佳 在世界机器人大会上,宇树CEO王兴兴一口气提了不少"非共识"。他对 VLA (Vision-Language-Action视觉-语言-动作)模型持怀疑态度, 认为 这属于"相对傻瓜式架构";他还说机器人行业对数据关注度有点太高了,包括灵巧手在内的硬件虽然不够好但够用,行业最大的问题在于具 身智能的AI完全不够用。 王兴兴的观点在业内持续引发讨论。今日世界机器人大会上,记者留意到,国家地方共建人形机器人创新中心首席科学家江磊近20分钟的演 讲中,3次提到了王兴兴。 对于王兴兴关于"硬件足够用、大模型不够用"的观点,江磊分享了与阿里、华为等企业交流的体会:"我们是选不到一个很好的身体",并坦 承今天行业确实还用不上全参数模型,机器人的大脑、小脑、肢体需要深度协同;王兴兴质疑VLA并尝试用视频生成驱动机器人任务,江磊 承认"感知-认知-决策-执行的闭环尚未闭合",呼吁重构VLA模型,寻求新的解决范式;王兴兴还提到,机器人在RL(强化学习)的Scaling law(尺度定律)是非常值得做的方向,江磊认同表示,强化学习跟模仿学习 ...
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-30 07:32
自动驾驶技术中的强化学习应用 核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用,但受限于训练效率低和复杂度高,工业界普及度有限 随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破,强化学习在时序决策任务(如轨迹规划)中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术,通过动态reward设计(安全性/舒适性指标)和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**:用于感知任务(目标检测),通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**:以专家动作为监督信号,扩展至短时序轨迹生成,是端到端自动驾驶的主流方法 [6] - **强化学习**:通过环境交互的延迟反馈(如轨迹规划中的碰撞避免)优化策略,依赖动态reward信号 [7] - **逆强化学习**:从专家数据中学习reward-model,解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**:包括动态规划、蒙特卡洛(统计大数原理)、时序差分(SARSA/Q-Learning)及混合算法(GAE) [29][30][33][44] - **策略优化方法**: - **REINFORCE**:蒙特卡洛估计策略梯度 [50] - **Actor-Critic**:结合策略网络与价值函数拟合 [51] - **PPO**:通过clip函数简化TRPO的约束条件,提升训练稳定性 [57] - **GRPO**:DeepSeek提出的轻量化算法,利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**:策略网络与价值网络通过模仿学习初始化,提升训练收敛性 [60] - **概率建模**:自回归/Diffusion模型对action多步rollout,通过环境反馈优化策略 [61] - **闭环训练**:需建模多智能体博弈(他车动态响应),避免静态环境导致的策略偏差 [62] - **端到端融合**:结合NeRF/3DGS生成动态环境感知数据,实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升,涉及大模型、VLA、BEV感知等30+技术栈,近4000人参与交流,300+企业与科研机构加入 [65]
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 18:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
机器之心· 2025-07-14 12:08
强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳,探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略,适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法,将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题:提升探索效率和时间连贯动作序列,实现快速值传播[5] - 使用动作分块实现快速价值回传,并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练,再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间,预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播,消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性,使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试,包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力,在线阶段样本效率高,尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法,突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作,状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN,解释其更高样本效率[29][32]
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]