自动驾驶之心

搜索文档
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-03 07:33
自动驾驶行业招聘趋势 - 金九银十招聘季开启 业内tier 1公司已开始发放测试岗位offer[1] - 感知算法岗位存在转岗难度 但行业仍存在算法岗机会[1] - 自动驾驶公司开出高薪挖人 大模型相关岗位需求激增[14] 自动驾驶技术发展方向 - 端到端自动驾驶成为智驾量产核心算法 分为一段式和二段式技术方向[7] - 理想汽车宣布E2E+VLM双系统架构量产 通过传感器数据直接输出规划控制信息[7] - 端到端技术需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[8] - 2024年学术界端到端大模型工作爆发 工业界融资案例快速崛起[14] - 4D自动标注算法重要性凸显 需标注动静态元素 OCC和轨迹等复杂数据[11] 自动驾驶课程体系 - 推出499元超级折扣卡 享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型 BEV感知等技术[7][8] - 推出自动驾驶4D标注算法小班课 聚焦多模态3D感知和数据闭环[12] - 开设多模态大模型与自动驾驶实战课程 涵盖通用多模态大模型到大模型微调[14] - 课程体系包含感知系列 多传感器标定融合 模型部署 规划控制与预测 仿真开发等模块[16][17][18][19][20] 行业人才需求与就业 - 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等公司[38] - 课程学员可获岗位推荐 绕开官网投递直接对接算法开发负责人[38] - 小班课针对秋招社招需求 解决项目经验不足 简历修改 面试指导等痛点[21] - 提供60小时入门教程和求职100问等会员独家福利[43] 技术实践与工程挑战 - 车端部署需要推理延迟低于200毫秒 理想目标低于100毫秒[34] - 路径规划成功率需保证99%以上 复杂场景需达99.9%[34] - 转向角误差理想目标小于1度 可接受范围小于2度[34] - 加速制动误差理想目标小于0.1 m/s² 可接受范围小于0.2 m/s²[34] - 视觉感知量产需数十万至百万级标注数据量[36] - 传感器升级需重新构建数据集和训练模型[36] - 多传感器联合标定存在精度验证挑战[36]
小米汽车招聘云端大模型算法工程师(BEV/3DGS/OCC等)
自动驾驶之心· 2025-09-03 07:33
小米汽车技术发展方向 - 公司专注于云端大模型算法研发 重点包括4D真值自动化标注和多模态大模型技术 [1][4] - 致力于提升自动驾驶算法的语义理解能力和空间感知能力 基于海量量产数据进行无监督/自监督算法开发 [4] - 构建数据驱动的自动驾驶算法迭代链路 通过自训练pipeline实现高效数据闭环 [4] 人才招聘需求 - 寻求具备C++或Python编程能力及数据结构算法知识的算法工程师 [4] - 优先考虑在BEV感知/3D检测/多传感器融合等自动驾驶感知算法领域有深入研究背景的候选人 [4] - 特别关注具有NeRF技术、3D场景生成和传感器仿真应用经验的专业人才 [4] 技术能力建设重点 - 要求候选人掌握计算机 数学 机器学习或机器人等相关专业领域知识 [4] - 重视自动驾驶相关项目实践经验 包括三维重建和深度估计等具体技术方向 [4] - 通过https://xiaomi.jobs.f.mioffice.cn/index/position/7483098801416421485/detail?spread=W6B69ND渠道接收人才投递 [2]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 17:57
日月更替,斗转星移。又到了金秋九月的开学季,校园里涌动的青春朝气与实验室里闪烁的代码光标遥相呼应。还记得十年前自己新学期踏进大学校园,看到无 人小巴的震撼,也是那个时候第一次接触到了自动驾驶,现在想想就是那个时候埋下了投身自驾的种子。 从16年开始,自动驾驶踏上了飞速发展的列车,整个世 界都处于人工智能爆发的前夕,有些人因为自身的努力或幸运站在了潮头之上,激昂和困惑交织在每个人的心头。 自动驾驶十年沉浮 这十年,自动驾驶从最开始的瞒珊学步,ImageNet图像分类,到COCO目标检测、分割、跟踪,进化到nuScenes 3D世界感知,再到BEV大一统整个感知模块(3D 检测/OCC/在线地图),又到今天的端到端、VLA。自动驾驶就像一个婴儿一样,终于快长大了。 未来又会是哪个方向呢?VLA和WA会是终局么?L4自动驾驶 还是具身智能抑或虚拟现实? 可能是,也可能不是。但科技总归是朝着智能化的大趋势大踏步前进,保持跟进与学习是重中之重。 自动驾驶的十年征程堪称一部浓缩的产业进化史,十年前我很难想象人工智能会到今天的高度。2015年百度无人车在雾霾中完成城市道路测试时,行业曾天真地 以为 L4 时代近在咫尺。无数 ...
自动驾驶多传感器融合感知1v6小班课来了(视觉/激光雷达/毫米波雷达)
自动驾驶之心· 2025-09-02 14:51
多模态感知融合技术背景与核心优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力已难以满足自动驾驶、机器人导航和智能监控等复杂场景的需求[1] - 多模态传感器融合通过结合激光雷达、毫米波雷达和摄像头的优势实现优势互补:摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云并提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强且能稳定探测物体速度和距离[1] - 传感器融合系统可实现全天候全场景下的可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进路径 - 传统融合方式分为三种:早期融合在输入端拼接原始数据但计算量巨大 中期融合将不同模态特征向量融合并统一到鸟瞰图视角 晚期融合在决策层面进行结果融合但难以解决信息冲突[2] - 基于Transformer的端到端融合成为最前沿方向 通过跨模态注意力机制学习不同模态数据间深层关系 实现更高效鲁棒的特征交互[2] - 端到端训练方式减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框 更好捕捉动态信息并提升整体性能[2] 多模态感知融合应用与挑战 - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] - 面临三大核心挑战:传感器标定需确保不同传感器空间和时间上的高精度对齐 数据同步需解决传感器帧率不一致和时延不同步 融合算法需更高效处理不同传感器数据的异构性和冗余性[3] 课程体系结构与核心内容 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 总时长24周[4][14] - 课程内容覆盖经典论文与前沿论文分析 代码实现与创新点研究 baseline与数据集应用 选题方法、实验方法、写作方法及投稿建议[4][11] - 采用"2+1"式师资配置与全学习周期服务 配备科学制定的学员守则与表现评估体系[18][21] 技术实践资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes和KITTI等公开数据集[19][20] - 提供Baseline代码仓库覆盖多模态3D目标检测、BEV视角Transformer融合及点云图像融合等多个方向[23] - 硬件要求最好具备4张4090显卡或以上设备性能 最低不少于2张4090显卡 也可考虑租赁云服务器[15] 学员收获与产出目标 - 学员将获得经典及前沿论文分析方法 理解重点算法与原理 清晰不同算法优劣势[14] - 课程将提供研究idea 每位同学都能获得导师准备的具体idea方向[14] - 最终产出包括论文初稿、项目结业证书 并根据学生优秀程度提供推荐信[21] 课程安排与学习要求 - 详细课程安排包含14周专项主题:从课题概览与科研路径介绍 到BEV视角多模态融合 再到基于Transformer的端到端融合 最后涵盖论文写作方法与投稿意见[23][25] - 学习要求包括具备深度学习基础 熟悉Python语法和PyTorch使用 最好具备Linux系统开发调试能力[15] - 必须完成在线1v1面试 每周上课前按时阅读资料并完成作业 课后自学时长至少1-2小时[21]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 11:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
4000人的自动驾驶社区,开学季招生了!!!
自动驾驶之心· 2025-09-02 11:14
社区定位与规模 - 社区定位为综合类自动驾驶技术交流平台,集视频、图文、学习路线、问答与求职交流于一体,已吸引超过4000名成员,目标在未来2年内达到近万人规模[3] - 社区成员主要来自头部自动驾驶公司、具身智能公司、互联网企业、Top高校实验室及传统机器人公司,形成工业界与学术界互补的生态结构[1] - 社区覆盖近40个前沿技术方向,包括多模态大模型、VLM、VLA、闭环仿真、世界模型、端到端自动驾驶等主流方法论[1][3] 技术资源体系 - 汇总近40+技术路线、近60+自动驾驶数据集、行业主流仿真平台及开源项目,涵盖感知、规划控制、仿真等核心领域[12][23][24][25] - 提供超过100场专业技术直播分享,内容涉及VLA、3D检测、扩散模型等前沿课题,并邀请学术界与工业界专家参与[52] - 整理完备的学习资料库,包括数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件,适配从入门到进阶的学习需求[7][24] 就业与产业链接 - 与近300家机构及自动驾驶公司建立内推合作机制,提供岗位推荐与简历直推服务,覆盖蔚小理、华为、大疆、英伟达等头部企业[8][12][59] - 定期开展行业趋势讨论,聚焦技术走向与量产痛点,并提供企业前景分析、跳槽建议及博士研究方向指导[4][16][57] - 构建求职交流板块,涵盖岗位开放信息、内推渠道及产业机会挖掘,强化社区与产业实践的连接[8][16][59] 内容服务特色 - 提供快速技术答疑服务,针对端到端入门、VLA学习路线、多传感器融合就业前景等实用问题提供解决方案[3][4][16] - 独家梳理自动驾驶100问系列专题,包括TensorRT部署、毫米波雷达融合、车道线检测等工程实践关键问题[7] - 打造多维度学习路径,如感知学习路线、仿真学习路线、规划控制学习路线等,系统性降低学习检索成本[12][13]
ICLR 2025 | SmODE:用于生成平滑控制动作的常微分方程神经网络
自动驾驶之心· 2025-09-02 07:32
研究背景与核心问题 - 深度强化学习已成为解决物理世界最优控制问题的有效方法,在无人机控制和自动驾驶控制等任务中取得显著成果[5] - 控制动作平滑性是深度强化学习技术面临的重要挑战,主要源于输入状态中的高频噪声干扰和神经网络Lipschitz常数缺乏约束[5] - 课题组此前在ICML2023提出的LipsNet从约束神经网络Lipschitz常数角度实现控制平滑,而本研究同时解决导致动作不平滑的两个根本原因[5] 技术创新与解决方案 - 提出使用常微分方程(ODE)的平滑神经元结构替代传统线性激活神经元,构建平滑神经网络(SmODE)作为强化学习策略网络[4][7] - 设计具有低通特性的常微分神经元,通过可学习的状态依赖系统时间常数实现高频噪声动态滤除[7][8] - 构建状态依赖映射函数g,从理论上证明该函数能有效控制常微分神经元的Lipschitz常数[9][10] - 采用仿生建模方式给出平滑常微分神经元具体表达式:$$\frac{\mathrm{d}x_{i}}{\mathrm{d}t}=\sum_{j}\left[-{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)x_{i}+{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)\cdot\operatorname{tanh}(h\left(x_{j},\theta\right))\right]+x_{\mathrm{leak}_{i}}$$[11] 网络架构设计 - SmODE网络结构包含输入模块(多层感知器MLP)、平滑常微分模块和输出模块(线性变换层+谱归一化)[14] - 平滑ODE模块由三层组成,每层神经元数量可根据任务复杂度灵活选择[14] - 作为通用策略网络可与各类经典深度强化学习算法结合,本工作与DSAC算法相结合[16] - 策略损失函数在基本策略损失基础上添加限制时间常数和Lipschitz常数的损失项:$$\operatorname*{min}{\mathcal{L}}_{\pi}^{\prime}(\theta)={\mathcal{L}}_{\pi}(\theta)+\lambda_{1}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}f(\cdot)\right]+\lambda_{2}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}h^{2}(\cdot)\right]$$[16][17] 实验验证结果 - 在高斯噪声方差0.05条件下,SmODE在正弦曲线和双车道变换曲线跟踪任务中比MLP表现出更低动作波动率和更小横向速度变化[19] - 在MuJoCo基准测试中采用DSAC算法,策略网络配置为MLP、LipsNet、LTC和SmODE进行对比[21] - 在八项MuJoCo任务中设置两种高斯噪声水平(level 1:0.005-0.150,level 2:0.015-0.250)[21] - SmODE在大多数任务中表现最佳:InvertedDoublePendulum-v3获得9357±2分(动作波动0.15),Reacher-v2获得-5.67±1分(波动0.22)[22] - Humanoid-v3任务中SmODE获得10819±81分(波动0.45),显著优于LTC的10626±128分(波动0.60)和MLP的10892±342分(波动0.62)[22] - Walker2d-v3任务中SmODE获得6039±112分(波动0.73),而LTC为5861±482分(波动1.10),MLP为5663±508分(波动1.21)[22] 技术优势与应用前景 - SmODE网络将常微分方程作为神经元核心组件,实现自适应低通滤波和Lipschitz常数有效控制[23] - 该方法在训练过程中无需引入动作变化惩罚项,推理过程中无需附加滤波处理[7] - 能够有效抑制动作输出震荡问题,显著提升各种强化学习任务中的平均回报[23] - 为现实世界中的强化学习应用提供新思路,特别是在自动驾驶和工业机器人等具身智能模型领域具有应用潜力[1][4]
超高性价比3D扫描仪!点云/视觉全场景重建,高精厘米级重建
自动驾驶之心· 2025-09-02 07:32
产品核心特点 - 国内最强性价比实景三维激光扫描仪 轻量化设计 一键启动 提供高效实用三维解决方案 [1] - 以多模态传感器融合算法为核心 实现厘米级精度三维场景实时重构 [1] - 每秒20万级点云成图 70米测量距离 360°全域覆盖 支持20万平米以上大场景扫描 [1] - 支持选配3D高斯数据采集模块 实现高保真实景还原 [1] - 支持跨平台集成 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间 [1] 技术参数 - 系统采用Ubuntu 20.04 支持ROS环境 [22] - 相对精度优于3cm 绝对精度优于5cm [22] - 点云输出速率达20万点/秒 支持彩色点云输出 [22] - 支持pcd, las, plv等多种通用数据格式导出 [22] - 设备尺寸14.2cm * 9.5cm * 45cm 重量1.3kg(不含电池) 1.9kg(含电池) [22] - 采用Intel N5095处理器 4核2.0GHz(睿频2.9G) 内存16G/硬盘256G [22] - 续航时间约3-4小时 存储容量256G 支持TF卡拓展 [22] - 配备微秒级同步模组 同步精度达微秒级 [23] - IMU频率最高800Hz 提供加速度、角速度、磁力计、姿态角数据包 [23] - 激光雷达型号Livox Mid-360 深度相机型号Intel D435i [23] - RTK型号T-RTK UM982 Mobile 配备全频四臂螺旋胶棒天线 [23] 硬件配置 - 设备集成丰富传感器资源 包括RTK、3D激光雷达、9DOF IMU、双广角相机、深度相机 [13] - 采用小倾角设计 激光雷达25°倾斜角度安装 兼顾多个方位 无需反复采集 [15] - 配备5.5寸@1280x720触控屏 航空铝外壳 [22] - 供电采用弹夹电池 容量14.8V/6000mAh/88.8Wh [26] - 支持D-TAP输入16.8V/3A MAX 输出16.8V/10A MAX [26] - 配备千兆网口、USB3.0*2、Micro SD等外部拓展接口 [23] 软件功能 - 支持三维点云地图动态构建、色彩融合、实时预览 [22] - 具备快速建图程序(无色点云 点云稀疏)和建图程序(无色点云 点云稠密) [42] - 支持彩色点云建图 通过鱼眼相机进行参数调节 [42] - 提供3D高斯采集功能 支持离线渲染和在线渲染两种模式 [7][43] - 配备数据回放功能 可查看点云数据(.pcd)文件 [42] - 支持RTK功能 需要注册账号并填写IP地址、端口号等信息 [42] 应用场景 - 可广泛用于工业场景和教研场景 [1] - 胜任各类复杂室内外场景 包括写字楼、停车场、工业园区、隧道、森林、矿场等 [38] - 支持跨平台集成 适配无人机、无人车、机械狗、人形机器人等多种负载平台 [44] - 适用于地理信息数据采集 为城市规划、文昌监测等领域提供精准基础信息 [52] - 在工程数据领域确保施工精度并降低返工 [54] 版本与定价 - 基础版本售价19800元 [57] - 深度相机版本售价23800元 [57] - 3DGS在线版本售价39800元(云服务续费5000/月) [58] - 3DGS离线版本售价67800元(需客户提供高性能服务器) [58] - 购买后提供为期1年的售后服务 [60] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队携手合作 [9] - 基于多年科研和行业积累 经过上百个项目验证 [9]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
端到端自动驾驶的万字总结:拆解三大技术路线(UniAD/GenAD/Hydra MDP)
自动驾驶之心· 2025-09-02 07:32
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知模块输入图像或激光雷达数据输出边界框,预测模块输出轨迹,最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点,路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位,具有可解释性,但存在误差累积问题,无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制,强化学习方法在论文中较少见[11] - 评估方法分为开环评估(使用固定场景数据)和闭环评估(自车与环境存在交互)[11] - 模仿学习难以有效解决所有corner case问题,真值数据本身存在噪声,人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象,例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像,设计三个核心模块:感知、预测和规划,最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术,预测模块通过双路预测机制实现,规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息,采用类似LSS范式的方法得到BEV空间表示,创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构,一路通过GRU进行递归处理,另一路引入高斯噪声进行前向迭代,两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息,并对预测轨迹进行优化,优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架,以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务(Head Task)通过增加任务数量提升性能,创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征,MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测:Agent之间交互、Agent与地图交互、Agent与目标点交互,输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV,BEV特征作为Q,计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征,规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法,将栅格化表征转换为矢量化形式,更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量(motion vector)和地图矢量(map vector),通过地图查询经地图变换器处理后预测地图矢量,通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束:自车与他车之间碰撞约束(涉及横向和纵向距离)、自车与边界之间距离约束、自车方向约束(通过计算自车向量与车道线向量角度差确保行驶方向正确)[40] 概率化规划方法 - 规划是不确定性任务,确定性方法无法处理掉头等情况,概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想:初始化动作空间并离散化,规划词汇表收集4096种可能动作(如直行、加速、刹车、左转、右转等),编码后生成planning token[43] - 通过场景token与planning token交互,结合自车状态和导航信息,预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题,考虑自车与他车在未来帧中的交互,采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布,推理时采样分布并通过解码器生成路径点,关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征,通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题,通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法,在多轨迹预测的模型学习损失基础上增加知识蒸馏损失,蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标,均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架,作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值(Ground Truth),对异常案例(Counter Case)的处理能力有限[57]