Workflow
Imitation Learning
icon
搜索文档
为什么自动驾驶领域内的强化学习,没有很好的落地?
自动驾驶之心· 2026-01-13 11:10
自动驾驶端到端技术发展现状与挑战 - 强化学习在自动驾驶决策中至关重要,但面临奖励机制设计的核心难题,即平衡安全与效率时易出现“奖励破解”问题,导致性能难以全面提升[2] - 自动驾驶的强化学习问题比具身智能更复杂,需在达成行驶目标的同时严格遵守驾驶规则,并解决长时序决策、多目标权衡、不确定交互建模及规则难以穷举的“灰色决策区”等挑战[2] - 强化学习进一步落地的关键在于设计能与强化学习良好配合的系统架构[3] - 主流依赖模仿学习的端到端方案存在轨迹不稳定等问题,核心原因是模型缺乏基于环境反馈的持续修正能力[4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练 → 闭环强化学习 → 规则兜底(时空联合规划),并引入导航信息,该体系涉及模型、算法、数据到规则,人才壁垒极高[5] 自动驾驶端到端领域人才市场状况 - 该领域因技术壁垒高、人才稀缺,薪资水平非常慷慨,拥有五年以上经验的头部人才薪资普遍在100万元人民币起步,且上不封顶[6] - 量产落地过程中需克服众多复杂场景的挑战,如拥堵加塞、静态偏航、碰撞场景等,并需精准判断何时进行数据挖掘或数据清洗[7] - 端到端自动驾驶是一个系统工程,而非单点技巧,行业面临现实问题:大量从业者仅有论文基础,缺乏量产落地的系统经验,即使已从事端到端开发的工程师,其解决实际落地场景的能力也普遍较弱[7] 端到端自动驾驶课程核心内容架构 - **课程概述与基础**:介绍感知任务合并与规控算法学习化等主流趋势,讲解一体化感知架构、经典规控学习化方案,并详细说明当前端到端的开源数据集与评测方式[13] - **两段式端到端算法**:讲解两段式框架的建模方式、感知与规划控制的信息传递机制,分析其优缺点,阐明下游消费的感知信息及消费方式,并通过PLUTO算法进行实战[14] - **一段式端到端算法**:介绍性能更优的一段式框架,因其可实现信息无损传递,课程涵盖基于VLA、基于Diffusion等多种方案,并通过VAD系列进行深入学习[15] - **导航信息集成**:讲解导航地图在引导、选路、选道中的关键作用,介绍主流导航地图格式与内容,以及其在端到端模型中的编码、嵌入方式,以更有效发挥其能力[16] - **强化学习算法应用**:指出纯模仿学习的不足,需结合强化学习以学习因果关系并实现泛化,本章重点介绍强化学习算法及其训练策略[17] - **轨迹输出优化实战**:进行NN Planner项目实战,包括基于模仿学习的算法(重点介绍扩散模型与自回归算法),并在监督微调后继续讲解基于强化学习的算法实战[18] - **量产兜底方案**:介绍量产中为保证轨迹稳定可靠的后处理兜底逻辑,包括轨迹平滑优化算法、多模态轨迹打分搜索算法等[19] - **量产经验分享**:从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以快速提升系统能力边界[20] 目标学员与课程要求 - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端等常见算法知识,掌握强化学习与扩散模型理论基础,并拥有Python、PyTorch及MMDetection3D框架的使用经验,同时需要自备算力在GeForce RTX 4090及以上的GPU[21][22]
拆电脑比装电脑还难?这只“手术级”机械手正在破解电子垃圾困局
机器人大讲堂· 2025-10-23 22:37
文章核心观点 - 报废电子产品拆解是循环经济的重要环节,但面临技术挑战,传统工业机器人因灵活度不足难以胜任[1] - 新型电缆驱动机器人夹爪DeGrip通过小体积和高自由度设计,解决了在电脑机箱等密闭空间内的精细拆解难题[2][4][5] - 该技术已通过虚拟仿真和实体原型验证,为未来实现机器人自主拆解电子垃圾奠定了基础,有望推动循环经济发展[12][21][26][27] 机器人夹爪技术特点 - DeGrip夹爪提供三个自由度,由底座、腕部、两个钳口及相应关节组成,腕部可绕偏航轴旋转,钳口能绕俯仰轴运动[5] - 采用电缆驱动机制,将执行器置于远端,通过细线缆传递动力,使夹爪结构紧凑,能在狭小空间高效传动[6][7] - 设计带棘轮的分体式绞盘系统防止线缆松弛,通过电流反馈推算夹持力,实现无需力传感器的"软传感",提升安全性并降低机械复杂度[9] 虚拟仿真测试 - 基于NVIDIA Isaac Sim平台搭建虚拟EOL桌面电脑模型,模拟HP Z230工作站结构,包含RAM、SSD和HDD等典型部件[12] - 仿真任务要求夹爪从10毫米间距的RAM插槽中精准拔出芯片,穿过40毫米宽开口取出SSD,以及拆卸水平和垂直安装的HDD[14][16][18] - 模拟结果显示DeGrip能稳定完成所有操作,在密闭空间的操作灵活度明显优于传统夹具[20] 实体原型验证与未来方向 - 使用3D打印技术制造PLA材料夹具主体,搭配标准伺服电机,安装在Franka机械臂末端进行实体测试,结构稳固且响应灵敏[22][24] - 原型测试验证了电缆驱动结构的可靠性,并为后续智能学习系统积累了真实控制数据[24][25] - 下一步计划结合模仿学习和强化学习技术,让机器人在虚拟环境中学会自主拆解策略,并迁移到现实应用中[26]
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心· 2025-10-03 11:32
文章核心观点 - 中科院团队提出DriveDPO框架,旨在解决端到端自动驾驶模仿学习中的安全性问题,通过统一策略蒸馏和安全直接偏好优化,在NAVSIM基准上实现90.0的最新最优PDMS,比纯模仿学习提升1.9,比基于分数的最优方法提升2.0 [1][7][8][12][22] 端到端自动驾驶模仿学习的局限性 - 模仿学习仅关注预测轨迹与人类轨迹的几何相似度,但几何距离不等于安全距离,即使轨迹相似,安全性可能差异巨大 [5][11] - 模仿学习使用对称损失函数,对超越或滞后于人类轨迹的偏差给予同等惩罚,但不同方向的偏差对安全影响极不对称,例如紧急刹车时滞后通常更安全,但对称损失无法反映这种风险不对称性 [5][11] DriveDPO框架的技术创新 - 提出统一策略蒸馏方法,将人类模仿相似度与基于规则的安全分数融合为单一监督信号,直接优化所有锚定轨迹的策略分布,而非像基于分数的方法仅为每个候选轨迹独立学习评分函数 [7][17] - 引入迭代式安全直接偏好优化,将监督信号重构为轨迹级别的偏好对齐任务,优先选择既符合人类驾驶习惯又安全的轨迹,抑制看似合理但存在风险的轨迹 [7][8][18] - 设计了两种拒绝轨迹选择策略来构建偏好对,基于模仿的选择策略效果更优,用于识别空间上接近人类参考轨迹但安全性差的轨迹 [19][20][21][24] 实验验证与性能表现 - 在NAVSIM基准数据集上,DriveDPO完整模型在无责任碰撞、可行驶区域合规性、自车进度、碰撞时间等关键安全指标上均取得最佳或次佳表现,最终PDMS达到90.0 [22] - 消融实验表明,采用基于模仿的拒绝轨迹选择策略的模型PDMS为90.0,优于基于距离的选择策略和朴素选择方法 [24] - 模型输入包含多视图相机图像、激光雷达点云、自车状态与导航指令,输出为预定义离散候选轨迹上的概率分布,采用Transfuser作为感知骨干网络进行多模态融合 [14][15][16] 技术局限与未来方向 - 方法依赖PDMS这一预定义的加权复合指标进行安全评估,可能无法完全捕捉复杂驾驶场景中的所有潜在风险因素 [27] - 规则化监督依赖高保真仿真器提供评估分数,受限于规则设计和仿真器精度,且高保真仿真器获取难度大,制约了数据规模与多样性 [27]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]