自动驾驶之心

搜索文档
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
自动驾驶之心VLA技术交流群成立了(数据/模型/部署等方向)
自动驾驶之心· 2025-08-04 07:32
自动驾驶技术交流群成立 - 自动驾驶之心大模型VLA技术交流群正式成立,旨在促进VLA相关技术的交流与合作 [1] - 交流内容涵盖VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地及求职等方向 [1] - 感兴趣者可添加小助理微信AIDriver005并备注昵称+VLA加群以加入交流 [1]
自动驾驶运动规划(motion planning)发展到了什么阶段?
自动驾驶之心· 2025-08-03 08:33
作者 | 王小迪MLE 编辑 | 自动驾驶之心 原文链接: https://www.zhihu.com/question/279973696/answer/3535722816 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近end2end风头正盛,BEV已成标准范式,但planning进展仍然焦灼。究其原因,interaction modelling是planning的深水区,涉及博弈和不确定性建模,监督学习仍然 不能很好得描述此类问题。这次报告以interaction的建模和求解为切口,分析了近些年常用的框架范式,比如将ego trajectory和agent trajectory的关系加入loss function或 constraint中,ego/agent trajectory从lane routing或neural network生成等。 - (We already have) Reactive: surrounding agents influenc ...
准备扩大自驾团队了,欢迎家入我们~
自动驾驶之心· 2025-08-03 08:33
行业发展趋势 - 智能驾驶行业正从L2向L3阶段过渡 技术突破推动实际体验持续改善 [2] - 小米汽车YU7车型三分钟大定突破20万台 反映产品硬实力与品牌软实力协同效应 [2] - 行业进入下沉期 需攻克复杂技术难题 强调稳扎稳打突破量产瓶颈 [2] 公司业务动态 - 自动驾驶之心平台聚焦智能驾驶项目合作与教育研发 运营已进入第四年 [2] - 推出自驾教育在线课程、企业咨询及辅导业务 覆盖大模型/多模态等前沿技术方向 [3] - 提供行业资源共享机制 支持兼职或全职合作模式 分红比例较高 [6] 人才需求 - 招募博士及以上学历人才 工业界要求3年以上研发经验 [4] - 重点需求方向包括大模型部署、强化学习、端到端系统等15个技术领域 [3][8]
自动驾驶数据标注主要是标注什么?
自动驾驶之心· 2025-08-03 08:33
自动驾驶数据标注的核心作用 - 数据标注是将原始感知数据转化为结构化标签的基础环节,直接影响自动驾驶系统的识别、理解和决策能力 [4] - 准确系统的标注能提升感知算法的鲁棒性与泛化能力,在技术体系中具有不可替代性 [4] 图像数据标注方法 - 标注目标包括车辆、非机动车、行人、交通标志、红绿灯、车道线等关键对象 [5] - 采用二维边界框、实例分割或语义分割形式,语义分割对每个像素赋予类别标签实现高精度识别 [5] - 实例分割区分同类物体个体边界,如并行车辆需标注为"车辆A"、"车辆B"等独立实体 [5] 激光雷达点云标注特点 - 通过三维包围框记录目标在X/Y/Z轴的尺寸、中心点、朝向角和类别属性 [7] - 需标注动态状态(静止、缓行、变道)并在连续帧中赋予一致标识符(object ID)以构建时序轨迹 [7] 多传感器融合标注要求 - 图像与激光雷达数据需跨模态标注对应关系,通过坐标转换实现二维与三维语义对齐 [9] - 依赖高精度传感器外参标定,为多模态特征提取和时空建模提供基础支撑 [9] 高精地图标注内容 - 提取车道中心线、边界、类型、交通标志、信号灯结构、道路坡度等静态元素 [9] - 以图层形式叠加在WGS-84坐标系,要求厘米级精度并与感知标注保持语义一致性 [9] 环境与行为标注扩展 - 环境标签包括道路类型、天气条件、光照、交通密度等非结构化信息 [11] - 行为标注记录运动轨迹及加速、转向、横穿等动态属性,用于训练轨迹预测和意图识别模型 [11] - 人类目标可能标注关键点(头部、关节)或动作标签(挥手、奔跑)以支持复杂交互推理 [11] 标注质量控制与行业实践 - 通过标准化规范、人工复审和自动化脚本检测确保语义、空间、时间维度一致性 [13] - 特斯拉通过"影子模式"采集误判样本再标注,Waymo发布开放数据集推动行业标准趋同 [13] - 百度Apollo等国内企业通过本地化数据采集与标注提升场景适应性 [13] 数据标注的系统性价值 - 标注工作为算法提供涵盖二维语义、三维建模、多模态融合、高精地图及行为轨迹的全样本 [14] - 标准化与质量保障是实现感知、预测、决策、控制四大模块协同运作的基础支撑 [14]
4000人了,我们搭建了一个非常全栈的自动驾驶社区!
自动驾驶之心· 2025-08-03 08:33
自动驾驶行业现状与趋势 - 自动驾驶技术栈趋同 端到端+大模型成为主流方向 行业从百花齐放进入收敛阶段 [2] - 国内智测量产存在浮躁现象 方案未完全收敛即急于上车 行业需沉淀解决实际问题 [3] - 具身智能领域吸引部分从业者转行 但自动驾驶仍被视为最接近实现的通用具身智能赛道 [3] 技术发展方向 - 未来量产模型将呈现统一、多模态、端到端特征 模块化方法逐渐被淘汰 [3] - 行业对全栈人才需求迫切 需同时掌握感知、规划、预测、大模型及部署优化等技能 [3] - VLA(视觉语言模型)成为2025年热点技术方向 涉及开源数据集、模块化设计及量产方案等研究 [42] 学术与产业资源 - 自动驾驶之心社区整合40+技术路线 覆盖BEV感知、3DGS、世界模型等前沿方向 [5][16] - 汇集60+自动驾驶数据集 包括多模态大模型预训练/微调专用数据集 [32] - 链接国内外顶尖高校实验室(清华、CMU、ETH等)及头部企业(蔚小理、华为、大疆等) [16] 职业发展观察 - 行业薪资仍具竞争力 但面临转型压力 部分从业者权衡高薪与稳定性 [83] - 主机厂与供应商岗位选择成焦点 华为车BU、Momenta等企业技术认可度高 [83] - 应届生职业规划关注技术成长与企业前景 滴滴KargoBot等新兴领域受青睐 [83] 社区生态建设 - 提供学术前沿内容、工业界圆桌会议、开源代码及求职信息 形成产学研闭环 [5][21] - 定期举办超100场专业直播 邀请清华、上海AI Lab等机构专家分享最新成果 [79] - 建立40+开源项目库 涵盖BEV感知、Occupancy Network等关键技术 [30]
自动驾驶之心VLA技术交流群成立了~(数据/模型/部署等方向)
自动驾驶之心· 2025-08-02 19:49
感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称+VLA加群。 自动驾驶之心VLA技术交流群成立了,欢迎大家加入一起交流VLA相关的内容:包括VLA数据集制作、一 段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地、求职等内容。 ...
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
自动驾驶之心求职与行业交流群来啦~
自动驾驶之心· 2025-08-02 14:00
行业与求职现状 - 学校学习内容与实际工作需求存在显著差距 导致应届生在求职时缺乏竞争优势 [1] - 从业者存在转型需求 如转向大模型 世界模型或具身智能领域 但对行业实际动态了解不足 [1] 社群定位与功能 - 社群目标为搭建连接学校与企业的综合型平台 促进人才与产业对接 [1] - 核心讨论内容包括产业趋势 公司动态 产品研发及求职跳槽信息 [1] - 提供行业人脉拓展渠道 帮助成员获取第一手产业资讯 [1] 社群运营方式 - 通过微信扫码添加助理并备注"自驾+昵称+求职"完成入群申请 [1]
打算在招募一些自动驾驶大佬,共创平台!
自动驾驶之心· 2025-08-02 00:03
行业发展趋势 - 智能驾驶正从L2向L3阶段过渡 技术突破带来实际体验提升 行业逐渐普及化[2] - 小米汽车YU7三分钟大定突破20万台 反映产品硬实力与集团软实力的市场认可度[2] - 行业进入下沉期 需攻克复杂技术难题 强调稳扎稳打突破量产瓶颈[2] 公司业务动态 - 自动驾驶之心平台成立四年 聚焦智能驾驶项目合作与教育研发 汇聚全球开发者资源[2] - 开展自驾教育在线课程 企业咨询及辅导业务 覆盖大模型 端到端技术等15个前沿方向[3] - 提供行业资源共享与分红机制 支持兼职或全职合作模式[6] 人才需求 - 招募博士及以上学历人才 工业界需具备3年以上研发经验[4] - 重点引进大模型部署 强化学习 3D仿真等领域的专家[3]