Visual Token Pruning

搜索文档
自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
自动驾驶之心· 2025-08-05 11:09
基于可控扩散模型的生成式主动学习框架GALTraj - 提出GALTraj框架首次将可控扩散模型应用于轨迹预测的长尾问题通过尾样本感知生成技术动态增强稀有场景数据 [1] - 在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22)整体预测误差minFDE₆降低14.7%(从0.654→0.558) [1] - 设计尾部感知生成方法对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导生成兼具真实性、多样性且保留尾部特征的场景 [2] - 在多个骨干模型(QCNet、MTR)上验证显著提升尾部样本预测性能同时改善整体预测精度 [2] 拓扑感知激光雷达扩散模型TopoLiDM - 提出TopoLiDM框架通过拓扑正则化的图扩散模型实现高保真激光雷达生成 [13] - 在KITTI-360数据集上以22.6%的FRID下降率和9.2%的MMD下降率超越现有最优方法同时保持1.68样本/秒的实时生成速度 [13] - 采用紧凑的拓扑图作为潜在表示实现了快速、可解释且高保真的LiDAR点云生成 [15] - 拓扑感知VAE模块通过图构建和多层图卷积提取潜在图表示并引入0维持久同调约束确保生成的LiDAR场景符合真实世界环境的全局拓扑规则 [15] 高效端到端自动驾驶框架FastDriveVLA - 提出基于重建的视觉Token剪枝框架FastDriveVLA通过对抗性前景-背景重建策略在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7% [21] - 设计ReconPruner通过MAE风格像素重建训练的即插即用修剪器增强识别有价值令牌的能力 [27] - 构建nuScenes-FG数据集包含241k图像-掩码对针对自动驾驶场景的前景分割标注 [27] - 在nuScenes开环规划基准上实现SOTA性能 [27] 语言大模型驱动自动驾驶框架PLA - 提出统一的感知-语言-动作(PLA)框架通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心实现自适应自动驾驶 [34] - 在nuScenes数据集的城市交叉路口场景中速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923轨迹跟踪的平均位移误差(ADE)为1.013米 [34] - 多传感器语义融合模块整合激光雷达、雷达和相机数据生成结构化场景描述提升空间精度与语义丰富度 [38] - 通过LLM驱动的上下文推理增强对未见过场景的泛化能力实现鲁棒决策 [41] 自动驾驶行业资源整合 - 梳理近40+技术路线包括咨询行业应用、VLA benchmark、综述和学习入门路线 [50] - 整理国内高校著名自动驾驶团队和领域企业介绍 [52] - 汇总自动驾驶数据集与标定、仿真工具包括近百个数据集和标注工具 [52] - 提供基础入门资料涵盖数学基础、计算机视觉、深度学习和编程相关内容 [52]