CoopTrack

搜索文档
自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~
自动驾驶之心· 2025-07-30 11:01
自动驾驶技术研究进展 - 清华大学与奔驰合作提出GS-Occ3D算法 首次实现纯视觉的大规模3D占用重建 在Waymo数据集上以0.56倒角距离刷新几何精度SOTA 训练效率仅需0.8小时 并在Occ3D-nuScenes数据集实现33.4 IoU 超越激光雷达基线的31.4 [3][5] - GS-Occ3D创新性地开发了纯视觉占用标签生成管道 摆脱对LiDAR标注依赖 支持利用大规模众包数据进行自监督标注 在长轨迹和复杂场景中保持高几何保真度 [5] - 该算法在Waymo数据集验证中 IoU达44.7 F1分数61.8 在nuScenes零样本测试中IoU 33.4 超越基线31.4 显示强大泛化能力 [6] 多模态场景理解技术 - 慕尼黑应用技术大学提出BEV-LLM框架 通过融合LiDAR点云与多视角图像生成3D场景描述 在nuCaption数据集BLEU-4分数达20.28% 超越SOTA模型5% [9][15] - BEV-LLM采用1B参数轻量级模型 创新使用正弦-余弦位置嵌入技术 将特征空间划分为六个视图 在BLEU系列指标上全面超越7B参数级大模型 [15][16] - 研究团队同步发布nuView(205k样本)和GroundView(7.4k样本)两个新数据集 为环境感知和对象定位研究提供新基准 [9][15] 协同感知技术突破 - 清华AIR研究院联合团队提出CoopTrack框架 在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA 传输成本降至V2X-ViT的2.2% [21][26] - 该框架采用可学习实例关联模块和"融合后解码"流程 实现协作与跟踪的无缝集成 在mAP指标上较Early Fusion提升12个百分点 [26][29] 强化学习应用创新 - 德国研究团队提出自适应行为课程框架 通过多智能体强化学习教师动态生成交通行为 使智能体在未信号化交叉口平均速度提升98%至1.63 m/s [33][39] - 该框架采用图网络架构和新型奖励函数 能生成不同难度水平的交通行为 在最高难度场景(λ=-1)下成功率提升至40% [33][39] 视觉行驶区域预测 - ContourDiff模型突破单目视觉多模态驾驶通道预测技术 在CARLA实现0.7767 IoU与0.02障碍物重叠率 支持6种驾驶行为生成 [45][48] - 该技术首次将行驶区域预测定义为图像感知任务 采用自监督样本生成方法 摆脱对密集标注数据的依赖 [48][49]
清华提出CoopTrack:端到端协同跟踪新方案(ICCV'25 Highlight)
自动驾驶之心· 2025-07-28 18:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 协同感知旨在通过多智能体间的信息交换来克服单智能体自动驾驶系统的固有局限。以往研究主要集中在 单帧感知任务上,而更具挑战性的协同序列感知任务(如协同3D多目标跟踪)尚未得到充分探索。为此, 清华、香港理工等团队提出了CoopTrack,一个全新的、面向实例级别的端到端协同跟踪框架。该框架的核 心特点是 可学习的实例关联 (learnable instance association) ,这使其与现有方法有根本区别。CoopTrack 传输稀疏的实例级特征,在显著提升感知能力的同时,保持了较低的通信开销。该框架包含两个关键组 件: 多维特征提取 (Multi-Dimensional Feature Extraction, MDFE) 和 跨智能体关联与聚合 (Cross-Agent Association and Aggregation)。前者能够结合语义和运动特征,实现全面的实例表征;后者则基于特征图, 实现自适应的跨智能体关联与融合。在 V2X-Seq 和 Griffin 数据集上的实验表明,Co ...