自动驾驶之心

搜索文档
清华提出CoopTrack:端到端协同跟踪新方案(ICCV'25 Highlight)
自动驾驶之心· 2025-07-28 18:41
核心观点 - 协同感知通过多智能体信息交换克服单智能体自动驾驶系统的局限 但以往研究集中于单帧感知 协同序列感知任务如协同3D多目标跟踪尚未充分探索[2] - 清华与香港理工团队提出CoopTrack框架 其核心特点是可学习的实例关联 通过传输稀疏实例级特征显著提升感知能力同时保持低通信开销[2] - CoopTrack在V2X-Seq数据集上达到SOTA水平 mAP和AMOTA分别达到39.0%和32.8%[2] 核心创新点 - 提出首个面向协同3D多目标跟踪的全实例级端到端框架CoopTrack 将协同感知与序列跟踪任务统一建模 避免传统检测后跟踪范式的信息割裂问题[6] - 引入基于图注意力机制的可学习关联模块 通过学习跨智能体实例特征间相似性生成亲和力矩阵 实现更鲁棒自适应的关联[6] 算法核心概述 - 采用解码后融合新范式 流程为各智能体先独立解码生成初步查询 然后通过可学习模块进行跨智能体关联 最后对齐并聚合特征 避免特征融合阶段的歧义和冲突[9] - 设计多维特征提取模块 将实例表征解耦为语义特征和运动特征 语义特征由查询特征通过MLP提取 运动特征通过PointNet从3D边界框角点坐标提取[9] - 核心流程包含多维特征提取 跨智能体对齐 图注意力关联和特征聚合与解码四个步骤 其中跨智能体对齐模块通过隐空间线性变换解决不同智能体间的特征域鸿沟[13][17] 主要实验结果 - 在通信开销方面 CoopTrack传输成本为1.17×105 显著低于Early Fusion的3.11×108和UniV2X的5.58×104[15] - 随着智能体数量增加 CoopTrack性能持续提升 当智能体数量为4时 mAP达到0.356 AMOTA达到0.346[19]
看完懂车帝的测评,才发现和特斯拉的差距可能在4D自动标注...
自动驾驶之心· 2025-07-28 18:41
智能驾驶行业现状 - 2025年主机厂普遍以1000万clips量产为目标 但当前国内近40款车型辅助驾驶通过率低至1/6 部分车型甚至零通过 与特斯拉存在显著差距 [1] - 行业共识认为模型算法仅能实现智驾能力从0到10的突破 而从10到100需依赖数据闭环和自动标注系统 [1] - 特斯拉自2021年起积累亿级自动标注数据 国内企业在该领域整体落后 [1] 4D自动标注技术核心 - 动态障碍物标注需整合四大模块:离线3D目标检测、离线跟踪、后处理优化、传感器遮挡优化 [4] - 3D检测主流采用点云目标检测或激光雷达-视觉(LV)融合方案 需通过跟踪算法串联多帧结果 [2][3] - 静态元素标注依赖SLAM重建技术 通过全局clip道路信息避免单帧感知偏差 [13] - OCC标注成为行业标配 需解决点云稠密化、噪声优化及跨传感器遮挡等工程问题 [14] 技术难点与突破方向 - 时空一致性要求连续帧动态目标追踪误差小于阈值 复杂场景下断裂率需控制在5%以下 [6] - 多模态融合涉及激光雷达/相机/雷达数据 时延补偿需达到毫秒级同步精度 [6] - 量产场景泛化需覆盖200+城市道路类型 标注算法在极端天气下的稳定性不足70% [7] - 端到端标注采用两段式架构 动态障碍物/静态元素/可行驶区域标注需实现98%以上的系统耦合度 [15] 行业技术发展趋势 - 无监督预训练+微调范式成为新方向 联合标注替代传统分离式标注流程 [2] - 数据闭环架构遵循scaling law 头部企业已建立PB级数据处理能力 [16] - 闭环仿真技术如DrivingGaussian算法成为端到端自动驾驶刚需 仿真场景覆盖度提升300% [15] 人才能力需求 - 工程师需同时具备多模态感知算法开发能力(3D检测/OCC/SLAM)和分布式系统优化经验 [10][14] - 量产项目要求掌握DetZero等时序后处理算法 轨迹ID跳变解决率需达99.5%以上 [10] - 岗位面试重点考察跨传感器标定(误差<0.1度)和复杂场景数据挖掘能力 [17]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 11:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]
传统感知和规控,打算转端到端VLA了...
自动驾驶之心· 2025-07-28 11:15
端到端VLA技术发展现状 - 端到端自动驾驶技术分为一段式与二段式两大方向 一段式包括基于感知(UniAD)、世界模型(OccWorld)、扩散模型(DiffusionDrive)等子领域 二段式以PLUTO为代表 [2] - 基于VLM的方法推动自动驾驶进入大模型时代 形成VLA(Vision-Language-Action)新方向 传统BEV感知、多传感器融合等技术已相对成熟 学术界研究热点明显转移 [2] - 工业界仍在优化传统感知规划方案 但学术界研究资源已集中投向大模型与VLA领域 该领域存在大量待探索的子方向 [2] VLA科研辅导课程设计 - 课程采用"2+1"多师制 主导师由名校教授/行业专家担任 配备科研班主任全程督导 包含12周在线科研+2周论文指导+10周维护期 [11][14] - 提供完整科研闭环支持:从经典/前沿论文分析(PLUTO/UniAD等)、baseline代码(VAD/DiffusionDrive等开源项目)、数据集(nuScenes/Waymo)到论文写作投稿全流程 [8][18] - 硬件要求最低配置4张NVIDIA 4090显卡 推荐8张 支持云服务器租赁方案 [12] 目标学员与课程产出 - 面向本硕博学生 需掌握Python/PyTorch基础 通过1v1面试考核 课程包含先修课强化深度学习与自动驾驶算法基础 [6][12] - 学员将获得:论文初稿(含导师定制idea)、结业证书、推荐信(优秀者) 以及系统的科研方法论与coding能力提升 [11][15] - 解决三大核心痛点:知识碎片化问题(建立VLA体系)、动手能力差问题(复现SOTA模型)、论文写作障碍(提供写作模板与投稿策略) [7] 技术资源支持 - 开源框架覆盖主流技术路线:基于模仿学习(UniAD/VAD)、扩散模型(DiffusionDrive/OccNet)、VLA(OpenDriveVLA/SimLingo)等 [18] - 必读论文包括Senna(视觉语言模型与自动驾驶桥接)、ORION(语言指令生成行动框架)等5篇顶会前沿研究 [18] - 采用腾讯会议直播+小鹅通回放形式 提供6个月答疑周期 严格学术诚信要求(剽窃零容忍) [14][20][21]
开放词汇分割新SOTA!Talk2DINO:让分割又快又准还懂人话~
自动驾驶之心· 2025-07-27 22:41
核心观点 - 提出Talk2DINO模型 通过非线性映射函数对齐DINOv2视觉嵌入空间与CLIP文本嵌入空间 解决开放词汇分割任务中视觉语言模型空间定位能力不足与自监督视觉模型缺乏语言整合的问题[1][3][5] - 采用无需微调骨干网络的训练模式 仅学习少量参数即可实现最先进的性能表现 在多个基准数据集上平均mIoU达到42.7(ViT-Base)和42.3(ViT-Large)[5][20][23] - 创新性引入基于DINOv2自注意力头的背景清理程序 通过相似度图与背景清理图的凸组合增强分割效果 背景区域识别阈值设为0.55[17][18][23] 技术方法 - 学习非线性投影函数 由两个仿射变换与双曲正切激活函数组合而成 将CLIP文本嵌入映射到DINOv2视觉补丁嵌入空间[12][13] - 利用DINOv2最后一层提取N个注意力图 通过加权平均计算视觉嵌入 采用最大相似度分数选择机制实现文本与视觉表示的稳健对齐[9][13][15] - 使用InfoNCE损失函数优化对齐效果 将批次内图像文本对作为正负例进行对比学习 批次大小设置为128[15] 性能表现 - 在无掩码细化条件下 ViT-Base模型在Pascal VOC/Pascal Context/COCO Stuff/Cityscapes/ADE20K数据集分别达到85.3/40.5/27.9/38.2/21.8 mIoU 平均42.7[20] - 采用掩码细化后 ViT-Large模型在相同数据集达到88.7/43.2/30.0/39.3/23.4 mIoU 平均44.9 显著优于FreeDA(44.0)和ProxyCLIP(41.8)[20][23] - 在含背景类别的三个基准测试中 ViT-Base模型在Pascal VOC/Pascal Context/COCO Object分别取得65.9/38.4/44.6 mIoU 全面领先对比模型[24][25] 模型优势 - 参数效率显著优于竞争对手 在保持更高平均mIoU的同时参数量少于FreeDA和ProxyCLIP模型[37] - 支持多种ViT架构规模 ViT-Small骨干网络在五个基准测试中仍能达到35.3/24.6/28.3/17.0 mIoU[27][30] - 背景清理程序对前景类别分割效果提升显著 在Pascal VOC和COCO Object数据集分别提升3.8和3.9 mIoU[33][37] 实验验证 - 消融实验证实非线性投影的必要性 使用线性投影会导致性能下降 单一全连接层仅能达到84.5 mIoU(VOC)[31][32] - 自注意力选择机制验证表明 最大相似度选择策略在所有基准测试中表现最优 尤其在Pascal Context数据集达到40.5 mIoU[31][32] - DINOv2寄存器分析显示 移除寄存器会导致性能下降 伪影现象会影响注意力头选择机制 在ViT-L架构中差异最显著[37]
高保真实景还原,最强性价比3D激光扫描仪!3DGS版本来啦~
自动驾驶之心· 2025-07-27 22:41
产品概述 - GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,提供高效实用的三维解决方案 [1] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] - 设备自带手持Ubuntu系统和多种传感器设备,手柄集成电源,为雷达、摄像头及主控板供电 [1] 核心技术参数 - 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景 [1][24] - 相对精度优于3cm,绝对精度优于5cm [17] - 搭载Intel N5095处理器,4核2.0GHz(睿频2.9G),16G内存/256G硬盘(可拓展TF卡) [17] - 支持pcd, las, plv等多种通用数据格式导出 [17] - 采用微秒级同步技术实现多传感器数据融合 [29][30] 硬件配置 - 尺寸14.2cm * 9.5cm * 45cm,重量1.3kg(不含电池) [17] - 配备Livox Mid-360激光雷达、Intel D435i深度相机、T-RTK UM982 Mobile定位模块 [18] - 电池容量88.8Wh,续航约3-4小时 [17][21] - 配备5.5寸触控屏(1280x720)、千兆网口、双USB 3.0接口、Micro SD扩展 [17][18] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂场景 [33][42] - 支持跨平台集成,适配无人机、无人车、机械狗、人形机器人等多种负载平台 [39] - 可用于地理信息采集、工程监控、文物保护、城市规划等领域 [48][50] 产品版本与定价 - 基础版:19800元 - 深度相机版:23800元 - 3DGS在线版:39800元 - 3DGS离线版:67800元 [53][54] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队联合开发 [4] - 基于多年科研积累和上百个项目验证 [4]
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-07-27 22:41
自动驾驶行业招聘与求职 - 英伟达自动驾驶职位划分非常细致 今年仅开放实习转正通道 无校招名额 笔试包含3道算法题 涉及图搜索和动态规划等题型 [3][4] - 面试流程包含5轮技术面 每轮均有1-2道算法题 重点考察MPC规划控制、Hybrid A*算法、运动学约束算法等专业知识 以及链表操作、动态规划等编程能力 [5][6][8][10][11] - 技术面试深度涉及自动驾驶核心算法 包括MPC优化问题构造、非线性优化器选择、QCQP求解、iLQR与DDP区别等控制理论 以及state lattice规划、kinodynamic-RRT改进等运动规划算法 [5][11] - 最终轮为全英文技术主管面试 侧重项目细节与工程实现 包含EKF原理、多传感器时间同步等嵌入式系统经验 以及递归/迭代编程能力测试 [13] 自动驾驶技术发展趋势 - 行业技术栈呈现趋同态势 传统分散技术方向正被one model、VLM、VLA等统一方案取代 技术壁垒显著提高 [20] - 算法工程师需掌握跨领域技能 包括感知转大模型、规则转具身智能等转型需求 反映行业对复合型人才的需求增长 [20] - 前沿技术方向涵盖端到端自动驾驶、世界模型、BEV感知、Occupancy网络、多模态融合等30+技术路线 显示行业技术多元化发展 [22][24] 自动驾驶人才社区生态 - AutoRobo知识星球聚集近1000名行业从业者 覆盖智元机器人、地平线、小米汽车等知名企业 形成求职交流平台 [18] - 社区规模达4000人 吸引300+企业与科研机构加入 提供技术方案分享与岗位发布功能 [22] - 专业课程体系包含BEV模型部署、多传感器标定、轨迹预测等20+方向 配套学习视频资源 构建完整人才培养路径 [24]
OmniRe全新升级!自驾场景重建色彩渲染和几何渲染双SOTA~
自动驾驶之心· 2025-07-27 22:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 自动驾驶场景重建图像几何SOTA新工作。 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Nan Wang等 编辑 | 自动驾驶之心 导读 在自动驾驶场景的三维重建中,神经渲染技术(如高斯溅射)正扮演日益重要的角色。然而,真实世界 中光照、相机参数和视角的不断变化,导致了图像间的"色彩不一致性",这严重挑战了重建的真实感与 几何精度。为解决此问题,作者们 提出了一个 创新的多尺度双边网格框架 。该框架巧妙地 统一了外观 编码(Appearance Codes)和双边网格(Bilateral Grids) ,实现了对驾驶场景中复杂光影变化的精确 建模,从而 显著提升了动态场景重建的几何精度和视觉真实感。 论文链接:https://arxiv.org/abs/2506.05280 代码仓库(Github):https://githu ...
谈薪避坑、跨行转岗?自驾/具身/大模型求职,AutoRobo星球一站搞定!
自动驾驶之心· 2025-07-27 15:14
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - L2~L4自动驾驶功能持续量产 人形机器人和四足机械狗等具身智能产品取得技术突破 [2] - 行业对技术和人才需求旺盛 涵盖自动驾驶 具身智能 3D视觉 机器人等多个领域 [2] 求职社区概况 - AutoRobo知识星球成立半年 成员近1000名 覆盖机器人 自动驾驶 具身智能方向求职者 [2] - 成员包括地平线 理想汽车 华为 小米汽车等公司社招人员 以及2024-2025届秋招学生 [2] - 社区提供面试题目 面经 行业研报 谈薪技巧 内推机会 简历优化等全方位求职服务 [3] 核心资源内容 面试题库 - 自动驾驶方向包含毫米波视觉融合 3D/4D毫米波雷达量产 车道线检测等10个专业领域的一百问 [7] - 具身智能方向包含轨迹预测 Occupancy感知 相机标定等6个领域的一百问 [8][11] - 涵盖算法 开发 产品等岗位的校招 社招 实习面试问题 [4] 行业研究报告 - 提供世界机器人报告 中国具身智能创投报告等7份深度行业研究报告 [15] - 研报内容涵盖技术路线 市场机遇 上下游产业等行业发展关键信息 [12] 面试经验分享 - 收集了来自滴滴 英伟达 美团 小米等10家公司的成功与失败面试案例 [16] - 包含算法工程师 SLAM算法岗 产品经理等不同岗位的详细面经 [16] - 提供面试心得 转行经验 面试官建议等实用求职指导 [19] 会员服务价值 - 每日成本仅0.3元 提供完整求职服务体系 [20] - 可获取专业基础书籍 机器人/AI类学习资料 [17] - 包含谈薪技巧 HR面常见问题等职场进阶内容 [19]
测评特斯拉后,国内智驾的天塌了!
自动驾驶之心· 2025-07-27 11:04
自动驾驶行业测试结果分析 - 懂车帝对36款车型进行高速事故场景测试,特斯拉Model 3和Model X分别以5/6和5/6的通过率排名前两位,仅各有一项未通过[4] - 城市场景测试中,Model X以8/9的通过率排名第一,智界R7、阿维塔12等车型以7/9的通过率紧随其后[7] - 国内车型如蓝山、小鹏G6、问界M9等在高速测试中通过率为3/6,部分车型通过率低至1/6或0/6[4][6] 车企技术表现差异 - 特斯拉在两项测试中均表现突出,Model 3在"莽撞横穿的猪"场景未通过,Model X在"高速临时施工"和"倒车难题"场景存在短板[4][7] - 华为系车型如问界M7/M9在城市场景通过率为5/9,智界R7高速和城市通过率均为3/6和7/9[6][7] - 新势力中小鹏G6高速通过率3/6,城市场景3/9;蔚来ES6城市场景仅1/9通过率[6][7] 行业反馈与争议 - 岚图汽车高管指出行业存在高速避险和非标障碍物识别的技术瓶颈[8] - 特斯拉高管强调安全要求无上限,但提及数据本地化对测试结果的潜在影响[10] - 鸿蒙智行和广汽丰田对测试结果持保留态度,重申辅助驾驶的安全边界[11] 技术发展现状 - 当前市场尚无认证的L3级智能驾驶产品,辅助驾驶功能仍需驾驶员保持警惕[17] - 测试显示多数车型在极端场景下的表现存在显著提升空间,特别是非标准化场景的应对能力[4][7] - 行业需要加强消费者教育,明确辅助驾驶的功能边界和使用限制[17]