Workflow
Imitation Learning
icon
搜索文档
拆电脑比装电脑还难?这只“手术级”机械手正在破解电子垃圾困局
机器人大讲堂· 2025-10-23 22:37
文章核心观点 - 报废电子产品拆解是循环经济的重要环节,但面临技术挑战,传统工业机器人因灵活度不足难以胜任[1] - 新型电缆驱动机器人夹爪DeGrip通过小体积和高自由度设计,解决了在电脑机箱等密闭空间内的精细拆解难题[2][4][5] - 该技术已通过虚拟仿真和实体原型验证,为未来实现机器人自主拆解电子垃圾奠定了基础,有望推动循环经济发展[12][21][26][27] 机器人夹爪技术特点 - DeGrip夹爪提供三个自由度,由底座、腕部、两个钳口及相应关节组成,腕部可绕偏航轴旋转,钳口能绕俯仰轴运动[5] - 采用电缆驱动机制,将执行器置于远端,通过细线缆传递动力,使夹爪结构紧凑,能在狭小空间高效传动[6][7] - 设计带棘轮的分体式绞盘系统防止线缆松弛,通过电流反馈推算夹持力,实现无需力传感器的"软传感",提升安全性并降低机械复杂度[9] 虚拟仿真测试 - 基于NVIDIA Isaac Sim平台搭建虚拟EOL桌面电脑模型,模拟HP Z230工作站结构,包含RAM、SSD和HDD等典型部件[12] - 仿真任务要求夹爪从10毫米间距的RAM插槽中精准拔出芯片,穿过40毫米宽开口取出SSD,以及拆卸水平和垂直安装的HDD[14][16][18] - 模拟结果显示DeGrip能稳定完成所有操作,在密闭空间的操作灵活度明显优于传统夹具[20] 实体原型验证与未来方向 - 使用3D打印技术制造PLA材料夹具主体,搭配标准伺服电机,安装在Franka机械臂末端进行实体测试,结构稳固且响应灵敏[22][24] - 原型测试验证了电缆驱动结构的可靠性,并为后续智能学习系统积累了真实控制数据[24][25] - 下一步计划结合模仿学习和强化学习技术,让机器人在虚拟环境中学会自主拆解策略,并迁移到现实应用中[26]
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心· 2025-10-03 11:32
文章核心观点 - 中科院团队提出DriveDPO框架,旨在解决端到端自动驾驶模仿学习中的安全性问题,通过统一策略蒸馏和安全直接偏好优化,在NAVSIM基准上实现90.0的最新最优PDMS,比纯模仿学习提升1.9,比基于分数的最优方法提升2.0 [1][7][8][12][22] 端到端自动驾驶模仿学习的局限性 - 模仿学习仅关注预测轨迹与人类轨迹的几何相似度,但几何距离不等于安全距离,即使轨迹相似,安全性可能差异巨大 [5][11] - 模仿学习使用对称损失函数,对超越或滞后于人类轨迹的偏差给予同等惩罚,但不同方向的偏差对安全影响极不对称,例如紧急刹车时滞后通常更安全,但对称损失无法反映这种风险不对称性 [5][11] DriveDPO框架的技术创新 - 提出统一策略蒸馏方法,将人类模仿相似度与基于规则的安全分数融合为单一监督信号,直接优化所有锚定轨迹的策略分布,而非像基于分数的方法仅为每个候选轨迹独立学习评分函数 [7][17] - 引入迭代式安全直接偏好优化,将监督信号重构为轨迹级别的偏好对齐任务,优先选择既符合人类驾驶习惯又安全的轨迹,抑制看似合理但存在风险的轨迹 [7][8][18] - 设计了两种拒绝轨迹选择策略来构建偏好对,基于模仿的选择策略效果更优,用于识别空间上接近人类参考轨迹但安全性差的轨迹 [19][20][21][24] 实验验证与性能表现 - 在NAVSIM基准数据集上,DriveDPO完整模型在无责任碰撞、可行驶区域合规性、自车进度、碰撞时间等关键安全指标上均取得最佳或次佳表现,最终PDMS达到90.0 [22] - 消融实验表明,采用基于模仿的拒绝轨迹选择策略的模型PDMS为90.0,优于基于距离的选择策略和朴素选择方法 [24] - 模型输入包含多视图相机图像、激光雷达点云、自车状态与导航指令,输出为预定义离散候选轨迹上的概率分布,采用Transfuser作为感知骨干网络进行多模态融合 [14][15][16] 技术局限与未来方向 - 方法依赖PDMS这一预定义的加权复合指标进行安全评估,可能无法完全捕捉复杂驾驶场景中的所有潜在风险因素 [27] - 规则化监督依赖高保真仿真器提供评估分数,受限于规则设计和仿真器精度,且高保真仿真器获取难度大,制约了数据规模与多样性 [27]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]