Workflow
CoopTrack
icon
搜索文档
自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~
自动驾驶之心· 2025-07-30 11:01
自动驾驶技术研究进展 - 清华大学与奔驰合作提出GS-Occ3D算法 首次实现纯视觉的大规模3D占用重建 在Waymo数据集上以0.56倒角距离刷新几何精度SOTA 训练效率仅需0.8小时 并在Occ3D-nuScenes数据集实现33.4 IoU 超越激光雷达基线的31.4 [3][5] - GS-Occ3D创新性地开发了纯视觉占用标签生成管道 摆脱对LiDAR标注依赖 支持利用大规模众包数据进行自监督标注 在长轨迹和复杂场景中保持高几何保真度 [5] - 该算法在Waymo数据集验证中 IoU达44.7 F1分数61.8 在nuScenes零样本测试中IoU 33.4 超越基线31.4 显示强大泛化能力 [6] 多模态场景理解技术 - 慕尼黑应用技术大学提出BEV-LLM框架 通过融合LiDAR点云与多视角图像生成3D场景描述 在nuCaption数据集BLEU-4分数达20.28% 超越SOTA模型5% [9][15] - BEV-LLM采用1B参数轻量级模型 创新使用正弦-余弦位置嵌入技术 将特征空间划分为六个视图 在BLEU系列指标上全面超越7B参数级大模型 [15][16] - 研究团队同步发布nuView(205k样本)和GroundView(7.4k样本)两个新数据集 为环境感知和对象定位研究提供新基准 [9][15] 协同感知技术突破 - 清华AIR研究院联合团队提出CoopTrack框架 在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA 传输成本降至V2X-ViT的2.2% [21][26] - 该框架采用可学习实例关联模块和"融合后解码"流程 实现协作与跟踪的无缝集成 在mAP指标上较Early Fusion提升12个百分点 [26][29] 强化学习应用创新 - 德国研究团队提出自适应行为课程框架 通过多智能体强化学习教师动态生成交通行为 使智能体在未信号化交叉口平均速度提升98%至1.63 m/s [33][39] - 该框架采用图网络架构和新型奖励函数 能生成不同难度水平的交通行为 在最高难度场景(λ=-1)下成功率提升至40% [33][39] 视觉行驶区域预测 - ContourDiff模型突破单目视觉多模态驾驶通道预测技术 在CARLA实现0.7767 IoU与0.02障碍物重叠率 支持6种驾驶行为生成 [45][48] - 该技术首次将行驶区域预测定义为图像感知任务 采用自监督样本生成方法 摆脱对密集标注数据的依赖 [48][49]
清华提出CoopTrack:端到端协同跟踪新方案(ICCV'25 Highlight)
自动驾驶之心· 2025-07-28 18:41
核心观点 - 协同感知通过多智能体信息交换克服单智能体自动驾驶系统的局限 但以往研究集中于单帧感知 协同序列感知任务如协同3D多目标跟踪尚未充分探索[2] - 清华与香港理工团队提出CoopTrack框架 其核心特点是可学习的实例关联 通过传输稀疏实例级特征显著提升感知能力同时保持低通信开销[2] - CoopTrack在V2X-Seq数据集上达到SOTA水平 mAP和AMOTA分别达到39.0%和32.8%[2] 核心创新点 - 提出首个面向协同3D多目标跟踪的全实例级端到端框架CoopTrack 将协同感知与序列跟踪任务统一建模 避免传统检测后跟踪范式的信息割裂问题[6] - 引入基于图注意力机制的可学习关联模块 通过学习跨智能体实例特征间相似性生成亲和力矩阵 实现更鲁棒自适应的关联[6] 算法核心概述 - 采用解码后融合新范式 流程为各智能体先独立解码生成初步查询 然后通过可学习模块进行跨智能体关联 最后对齐并聚合特征 避免特征融合阶段的歧义和冲突[9] - 设计多维特征提取模块 将实例表征解耦为语义特征和运动特征 语义特征由查询特征通过MLP提取 运动特征通过PointNet从3D边界框角点坐标提取[9] - 核心流程包含多维特征提取 跨智能体对齐 图注意力关联和特征聚合与解码四个步骤 其中跨智能体对齐模块通过隐空间线性变换解决不同智能体间的特征域鸿沟[13][17] 主要实验结果 - 在通信开销方面 CoopTrack传输成本为1.17×105 显著低于Early Fusion的3.11×108和UniV2X的5.58×104[15] - 随着智能体数量增加 CoopTrack性能持续提升 当智能体数量为4时 mAP达到0.356 AMOTA达到0.346[19]