端到端自动驾驶扩散策略KDP-AD - 同济大学与北卡罗来纳大学教堂山分校提出知识驱动扩散策略KDP 在匝道合并 交叉路口和环形交叉路口场景中分别实现100% 94%和90%成功率 显著优于强化学习 规则基和模仿学习基线方法[3] - 框架将混合专家重塑为抽象驾驶知识单元 实现模块化组合式策略学习 支持跨场景知识复用与新行为生成 融合扩散建模与专家路由机制 通过条件去噪生成时序连贯多模态动作序列 保障长时域一致性[5] - 在汇入匝道场景中成功率100% 零碰撞率 平均奖励197.52 平均速度8.61米/秒 在交叉路口场景成功率94% 碰撞率6% 平均奖励121.54 在环形交叉路口场景成功率90% 碰撞率10% 平均奖励177.85[12] 3D语义占用预测SliceSemOcc - 南京航空航天大学提出垂直切片多模态3D语义占用预测框架 在nuScenes-SurroundOcc数据集上将mIoU从24.7%提升至28.2% 相对提升14.2% 尤其在小型物体类别表现显著提升[16] - 采用双尺度垂直切片策略 提取全高度范围全局切片与聚焦小目标高度区间局部切片 通过双向交叉注意力机制融合特征 设计SEAttention3D通道注意力模块保留高度轴分辨率 生成高度层专属通道权重[17][19] - 在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集分别实现28.2%和22.9%整体mIoU 较基线模型相对提升14.2%和13.9% 小目标类别障碍物 自行车 行人等增益显著[19][22] 交互式世界生成LatticeWorld - 网易与清华大学提出基于多模态大语言模型LLaMA-2-7B与Unreal Engine 5的交互式3D世界生成框架 实现90倍以上工业级场景生成效率提升 从55天缩短至0.6天以内 支持多模态输入与高保真物理仿真[27] - 设计32×32符号矩阵作为场景布局中间表示 将空间信息编码为LLM可处理序列形式 基于LoveDA和Wild数据集构建多模态数据集 包含文本描述 视觉指令 符号布局和环境配置[29] - 在场景布局准确性和视觉保真度上优于GPT-4o Claude 3.7 Sonnet等模型 较传统人工生产流程效率提升超90倍 保持高创作质量[29][35] 视觉语言模型空间推理Ego3D-Bench - 华为科技加拿大公司与华为云提出Ego3D-Bench基准和Ego3D-VLM后训练框架 提升视觉语言模型在自我中心多视角场景中三维空间推理能力 实现多选题准确率平均提升12%和绝对距离估计RMSE平均提升56%[37] - 基于nuScenes Waymo Open Dataset Argoverse 1构建8600+高质量问答对 覆盖绝对距离测量 相对距离测量 定位 运动推理 行驶时间5类任务 提出文本认知地图提升VLMs 3D空间推理能力[38] - 在16个SOTA VLMs上实验显示Ego3D-VLM平均提升多选项QA准确率12% 绝对距离估计RMSE相对改善56% 在All-Angle Bench VSI-Bench等其他多视图基准具适应性[38][42]
自动驾驶论文速递 | 端到端、Diffusion、VLM、OCC等方向~
自动驾驶之心·2025-09-09 15:51