Workflow
G²Editor
icon
搜索文档
自动驾驶论文速递 | DriveQA、闭环仿真、AIGC、世界模型等~
自动驾驶之心· 2025-09-03 11:19
DriveQA多模态驾驶知识基准 - 提出DriveQA数据集,整合美国51个地区驾驶手册文本与CARLA仿真视觉场景,构建包含474K样本的驾驶规则问答基准[2] - 数据集包含DriveQA-T(26K QA对)和DriveQA-V(68K图像与448K QA对),覆盖19个问题类别和220种美国交通标志[3] - 系统评估发现主流模型在数值推理、复杂路权场景、交通标志变体及空间布局理解存在显著缺陷[3] - 通过LoRA微调DriveQA后,模型在管制标志识别准确率提升至96.51%,交叉口决策准确率提升至91.15%[3][6] - 微调后的模型在nuScenes轨迹预测任务中降低L2误差,在BDD-OIA行为推理中提升F1分数,Mapillary真实标志识别准确率提升10%-26%[3] 生成式AI在自动驾驶测试中的应用 - 系统性分析91篇生成式AI用于ADS测试的研究,归纳出6类核心任务:场景生成、关键场景生成、场景转换等[9][11] - 梳理包括LLM、VLM、扩散模型、GAN、VAE等生成式模型谱系,详细阐述各类模型在测试任务中的核心机制[11] - 汇总Waymo Open Dataset、nuScenes、highD等14个常用数据集及Carla、LGSVL等仿真平台,提供统一评估资源框架[14][15] - 识别出27项核心局限性,包括LLM的幻觉问题、扩散模型计算开销、少样本数据泛化能力不足等[14] SKGE-Swin端到端自动驾驶模型 - 提出整合Swin Transformer与跨阶段跳跃连接的SKGE-Swin架构,解决高分辨率空间细节丢失问题[17][21] - 在CARLA仿真中驾驶分数达到37.10,显著优于基线模型的29.71,路线完成度达82.81%[17][22] - 采用混合精度优化后,SKGE-Swin-tiny模型推理速度提升至27.49 FPS,VRAM占用仅1016MiB[21][24] - 模型在对抗场景评估中展现强大鲁棒性,特别在交叉口转向和对向车辆切入等复杂场景表现优异[21] DrivingGaussian++动态场景重建 - 提出复合高斯溅射建模范式,将动态驾驶场景解耦为静态背景与动态目标分别建模[30][34] - 在nuScenes数据集上实现PSNR 28.74、SSIM 0.865、LPIPS 0.237的领先性能[30][35] - 支持无训练可控编辑,包括纹理修改、天气模拟和物体操作,执行时间仅约8分钟[34][35] - 结合LiDAR几何先验优化重建精度,通过多相机配准误差最小化提供精确几何约束[34] G²Editor驾驶视频编辑框架 - 构建统一编辑框架支持物体重定位、插入与删除三大任务,融合扩散模型与3D高斯渲染技术[37][42] - 在Waymo数据集上实现LET-mAP 0.781(重插入)、0.806(旋转5°)、0.725(平移1m)的领先性能[42][43] - 视觉保真度指标表现优异,LPIPS-Ref最低达0.151,FID-Ref最低达13.240[42][45] - 生成的编辑数据可有效扩展3D目标检测任务视角分布,提升检测器性能[42]