Workflow
生成式建模
icon
搜索文档
闭环碰撞率爆降50%!DistillDrive:异构多模态蒸馏端到端新方案
自动驾驶之心· 2025-08-12 07:33
端到端自动驾驶技术发展 - 端到端自动驾驶近年来发展迅速,对工业界和学术界均产生深远影响,但现有工作过度关注自车状态作为唯一学习目标,缺乏面向规划的理解能力 [2] - DistillDrive框架通过异构蒸馏显著降低自动驾驶碰撞率50%,闭环性能提升3个百分点 [2] - 与感知分离的规划模型相比,端到端模型直接从传感器输入学习到最终规划决策,减少级联误差但闭环表现较差 [3] DistillDrive技术创新 - 采用多模态解耦规划模型作为教师模型,通过知识蒸馏监督端到端模型的运动引导实例交互 [6] - 引入强化学习优化状态到决策的映射关系,利用生成式建模构建面向规划的实例 [6] - 主要贡献包括:多模态实例监督蒸馏架构、基于强化学习的状态优化、生成模型实现的分布级交互 [7] 技术实现细节 - 教师模型包含智能体编码器、场景编码器、规划解码器、预测头和状态优化模块 [20] - 学生模型采用稀疏场景表示和生成模型中的规划导向交互,通过KL散度监督分布 [25][27] - 知识蒸馏架构包含编码器实例蒸馏、解码器实例蒸馏和运动属性蒸馏三阶段 [30] 实验验证结果 - 在nuScenes数据集上碰撞率降低50%,L2误差减少10%,闭环性能提升3个百分点 [37] - NAVSIM数据集上PDMS指标比Transfuser高出2.5%,DAC和EP指标显著提升 [38] - 感知性能与SparseDrive相当,但在IDS等指标上有所提升 [39] 行业技术发展 - 端到端自动驾驶技术快速发展,UniAD利用注意力机制集成检测跟踪建图,VAD通过向量化表示平衡准确性与性能 [9] - 知识蒸馏在自动驾驶规划领域应用广泛,Roach、PlanKD和Hydra-MDP等采用不同蒸馏策略 [11] - 强化学习在CARLA等仿真环境中应用成熟,结合模仿学习可防止分布外值过度估计 [14][16] 未来发展方向 - 计划将世界模型与语言模型结合提升规划性能 [55] - 采用更有效的强化学习方法理解场景语义几何空间与决策规划空间关系 [55] - 行业正形成大模型、VLA、端到端、数据闭环等技术交流社区,涵盖30+技术方向 [58][60]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]