Workflow
模仿学习
icon
搜索文档
工业界算法专家带队!面向落地的端到端自动驾驶小班课
自动驾驶之心· 2025-11-21 08:04
端到端作为这两年的量产关键词,是各家车企核心的招聘岗位。但市面上真正的量产人才少之又少,模型优化、场景优化、数据优化,再到下游的规划兜底,可以 说端到端是一个全栈的岗位。 从技术的成熟度和工业界的需求来看,端到端需要攻克的难题还有很多。导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,目前也是量产第一 线。 为此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实际的量产经验。很多想进阶或者跳槽的同学苦于没有专家辅导,想转行但实际工作中无法接触到实际的量产优化,简历上往往不够亮眼,遇到 问题连个请教的人都没有。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这门课程是自动驾驶之心联合工业界算法专家开设的《面向量产的端到端实战小班课》!课程只有一个重点:聚焦量产。从一段式、两段式、强化学习、导航应 用、轨迹优化、兜底方案再到具体量产经验分享。面向就业直击落地,所以这门课 ...
刚刚,中美机器人爆发了一场论战
华尔街见闻· 2025-11-18 16:41
事件概述 - 一段展示中国初创公司灵启万物机器人自主完成浇花、扔垃圾、整理玩具、与孩子互动等复杂任务的视频在全球科技圈引发广泛关注[1][2] - 发布方灵启万物强调视频全程“无加速、无遥控”,完全由机器人自主完成[4] - 该视频意外引发了一场围绕其真实性的中美科技界跨国论战[1][10] 技术展示与真实性论战 - 视频中机器人动作流畅,展示了端水、爬上床、与孩子玩飞盘等行为[2][15] - 美国Figure公司CEO Brett Adcock公开质疑视频真实性,称其可能采用开环回放控制器并在关键环节进行人工遥控[5][7] - 美国科技博主Mike Kalil发表长文论证视频未造假,指出机器人行为基于学术界已有研究成果(如ResMimic、HDMI、OmniRetarget等论文),灵启万物成功实现了前沿研究的工程化整合[15] - 支持者提供了从不同角度拍摄的备份录像作为证据[11] - 灵启万物的技术可能整合了模仿学习和强化学习,通过在模拟环境中进行数百万次训练再将能力迁移至物理机器人[15] 公司背景与硬件基础 - 灵启万物是一家深圳初创公司,创始人来自腾讯[4] - 公司使用的硬件是宇树科技(Unitree)已实现规模化量产的G1人形机器人平台[4] - Figure公司CEO此前也曾公开质疑另一家中国机器人公司优必选(UBTECH)展示成果的真实性[8] 行业影响与商业模式路线之争 - 若灵启万物的软件系统能在经济实惠的量产硬件上实现通用功能,可能对Figure AI、1X Technologies和特斯拉等走“软硬一体”垂直整合路线的公司构成威胁[18] - 美国头部玩家采用类似苹果的封闭模式,自主研发AI软件和硬件本体,集成度高但研发成本和产品价格高昂[18] - 灵启万物视频展示了“安卓模式”的可能性,即AI软件与机器人硬件解耦,专注于开发“大脑”并利用第三方低成本量产硬件[19] - 该模式若成功,人形机器人产业竞争关键将从硬件制造转向软件智能,冲击现有硬件集成战略建立的壁垒[20] - 市场可能向开放、灵活的生态倾斜,软件可在任何硬件上运行,类似智能手机市场的安卓系统[20] - 此次论战本质是“软硬一体”垂直整合与“软硬解耦”开放生态两种技术路线和商业模式的提前碰撞[21]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 08:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]
NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」
机器之心· 2025-10-09 12:43
研究背景与问题 - 机器人灵巧操作领域长期面临数据稀缺的核心瓶颈,现有方法在成本、生成效率和数据多样性方面存在明显局限[2][3] - 传统二指夹爪生成方案无法推广至灵巧手,启发式规划难以应对高维动作优化,LLM无法生成精细五指控制轨迹[7] - 基于遥操作的人工示教成本高且可扩展性低,纯强化学习存在动作不自然、探索效率低的问题,现有数据集多局限于抓取任务且多样性有限[8][9] 技术框架与核心创新 - 提出自我增强的灵巧操作数据生成框架DexFlyWheel,仅需单条演示即可启动任务,自动生成多样化数据[3][12] - 采用模仿学习与残差强化学习组合策略:模仿学习保证轨迹自然性,残差强化学习进行精细微调以适应新场景[14] - 构建数据与模型的闭环飞轮,通过基础策略训练、残差策略训练、轨迹生成和数据增强四个步骤实现自我提升循环[17][22][23] 实验性能与成果 - 数据规模从1条演示扩展至500条生成轨迹,场景数量提升214倍,物体种类从1个扩展到平均20个[25][27] - 在包含物体、环境和空间布局三重变化的测试集上,策略成功率从初始16.5%提升至81.9%,显著优于基线方法[28][32][34] - 数据生成成功率达到89.8%,生成500条轨迹仅需2.4小时,相比人类演示和基线方法分别加快1.83倍和5.21倍[31][34] 实际应用验证 - 通过数字孪生技术将训练策略部署至真实双灵巧手机器人系统,在"双手提起"与"双手交接"任务中分别取得78.3%与63.3%的成功率[37] - 生成的数据具有高质量多样性,能帮助灵巧策略适应不同形状物体并完成高难度任务,动作表现更加类人[35][36] 行业意义与未来方向 - 该框架为灵巧手领域提供了自我提升的数据生成范式,通过数据与系统迭代让数据自主"长大",降低收集成本并提升多样性[39] - 未来工作将聚焦于奖励自动化设计和触觉模态结合,以突破高精度任务难度上限,推动灵巧手走向现实应用[40]
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-09 07:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-21 00:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 19:00
VLA技术发展趋势与行业动态 - VLA成为2024年自动驾驶领域主流关键词,工业界加速量产上车,学术界持续刷新比赛榜单[1] - 相比传统增加/删除问题案例的迭代方案,VLA利用大模型泛化能力提供了摆脱无尽corner case的可能性[1] - VLA技术发展涵盖模块化、一体化、推理增强等多个方向,但仍需优化模块对齐、车端思维链和空间理解等关键问题[1] 自动驾驶技术演进路径 - 端到端自动驾驶将传感器原始输入直接映射到车辆控制指令,替代传统多模块级联架构[2] - 传统模块化架构(L2-L4级)具有逻辑清晰和可解释性优势,但存在错误累积效应和信息损失等瓶颈[3] - 纯视觉端到端模型通过模仿学习实现像素到行为映射,但面临黑箱问题、因果混淆和泛化能力受限等挑战[3][4] - VLA范式将语言作为中间表征,赋予模型推理、解释和交互能力,标志着向通用人工智能驾驶代理的演进[5] VLA技术核心价值 - VLA模型通过视觉-语言-行为的闭环实现可解释决策,能用自然语言解释决策依据[5] - 模型利用LLM预训练获得的世界知识和常识,提升对复杂交通场景的理解能力[5] - 语言抽象和推理能力增强模型泛化性能,使其能更好地处理未见过的长尾场景[5] - VLA实现自然的人机交互功能,用户可通过自然语言下达高级驾驶指令[5] 论文辅导课程体系设计 - 课程采用12周在线小组科研+2周论文指导+10周论文维护期的教学模式[7][14] - 围绕语言模型解释器、模块化VLA模型、统一端到端VLA模型、推理增强VLA模型四大研究方向[7] - 提供经典论文与前沿论文分析、代码实现、创新点挖掘和数据集应用等全方位支持[7][12] - 学员将获得选题方法、实验方法、写作方法和投稿建议等系统化科研能力培养[6] 课程实施与资源保障 - 采用2+1多师制教学团队,主导师负责授课,副导师提供全程辅助,班主任跟踪学习进度[23] - 课程涵盖从传统端到端自动驾驶到VLA范式的完整技术演进内容,共14周系统学习[8][10][26] - 提供公开数据集如nuScenes、Waymo、Argoverse等,以及多个开源Baseline代码库[23][24] - 配备必读论文清单,包括Senna、SimLingo、OpenDriveVLA、ORION等前沿研究成果[25] 学员收获与能力提升 - 学员将掌握经典及前沿论文分析方法,理解重点算法原理与优劣势对比[7][14] - 即使没有自研idea,导师会为每位学员提供定制化研究思路[7][14] - 通过Baseline代码和数据集实践,显著提升Coding能力和实验效率[7][14] - 最终产出论文初稿,形成完整的研究成果输出[15] 招生要求与学术标准 - 课程每期限招6人,最多不超过8人,确保教学质量[11] - 学员需具备深度学习基础、自动驾驶算法了解和Python编程能力[16] - 硬件要求最佳配置为8张4090显卡,最低不少于4张4090显卡设备[20] - 学习要求包括每周课前阅读、按时完成作业、全勤参与和学术诚信[20]
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 10:07
文章核心观点 - 西湖大学团队提出自适应强化流匹配方法,旨在解决现有视觉-语言-动作流模型在复杂任务中动作精度不足的问题 [2] - 该方法通过在损失函数中引入自适应缩放因子,动态平衡强化学习信号与训练稳定性,使模型能更关注高质量数据 [2][6] - 实验证明该方法在泛化能力、抗干扰性、少样本学习及持续学习方面均优于现有基准模型 [6][49] 研究背景与问题 - 基于流匹配的视觉-语言-动作模型在常规场景表现良好,但依赖模仿学习后训练,难以理解数据质量分布特性 [1][4] - 在复杂下游任务中,现有模型动作精度显著下降,离线强化学习方法在流模型上效果不佳,因无法高效指导动作轨迹生成 [1][4] 主要贡献 - 提出自适应强化流匹配方法,填补了视觉-语言-动作流模型高效离线强化学习微调的技术空白 [6] - 从理论上构建了偏差-方差权衡目标函数,并推导出实时更新缩放因子的二分迭代算法 [6] - 在仿真与真实平台的大量实验中,该方法在多项性能指标上均展现出当前最优水平 [6] 核心算法设计 - 方法核心是构建能量加权损失以融合强化学习信号,并设计自适应机制平衡训练稳定性 [8] - 通过能量引导分布重塑动作轨迹的学习偏好,使模型更关注高强化学习优势的样本 [11][12] - 采用批次采样近似策略将理论损失转化为可高效计算的批次加权损失 [15] 实验设置 - 仿真实验采用LIBERO基准测试平台,涵盖4个核心套件共40个独立任务,评估不同操控能力 [27][29] - 真实世界实验使用UR5机械臂平台,设计3类抓取-放置任务并引入外部物理扰动 [29] - 基准方法包括非流匹配型与流匹配型两大类,以确保对比的全面性与公平性 [27][30] 核心实验结果 - 在多任务学习中,自适应强化流匹配平均成功率达92.1%,较基础流模型提升4.5个百分点,优于其他基准 [32][35] - 在动作扰动实验中,该方法平均成功率为48.2%,较基础流模型提升11.4%,显示出更强鲁棒性 [33][36] - 在少样本学习场景下,该方法平均成功率为36.5%,较基础流模型提升12.2%,证明其高效的数据利用效率 [34][37][45] - 在持续学习实验中,该方法平均负向后迁移指标为4.7,较基础流模型降低38.0%,抗遗忘能力显著提升 [38][39] 方法优势 - 自适应机制降低了对超参数的敏感性,不同超参数下模型成功率波动小于2个百分点,便于工程落地 [40][43] - 二分迭代算法轻量化且高效,仅需10次迭代即可获得近似最优缩放因子,计算成本低 [40][43] - 该方法无需修改模型骨干结构,与现有视觉-语言-动作流模型兼容,工程落地成本低 [25][49]