端到端自动驾驶
搜索文档
FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)
自动驾驶之心· 2025-09-23 07:34
核心观点 - 提出FlowDrive自动驾驶框架 在BEV空间中引入基于能量的流场表示 显式编码风险势场与车道吸引力场 实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计 分离运动意图预测与轨迹生成过程 减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分 在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力 计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长 计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹 使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架 使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分 超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分 较最优基准方法提升0.3分[40] - 在DAC(97.4)、DDC(99.6)、TTC(97.9)等安全指标上显著领先[40] - 多模态设置下(图像+激光雷达)性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式 基于BEV的方法可分为回归式(如UniAD、VAD)与生成式(如GenAD、DiffusionPlanner)两类[10][11] - 流场表示在机器人领域早有应用 但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制 但现有方法存在特征纠缠问题[13]
苦战七年卷了三代!关于BEV的演进之路:哈工大&清华最新综述
自动驾驶之心· 2025-09-18 07:33
BEV感知技术演进 - BEV感知已成为自动驾驶领域的基础范式,提供统一的空间表征,支持鲁棒的多传感器融合和多智能体协作[2] - 随着自动驾驶车辆从受控环境向现实世界部署过渡,复杂场景(如遮挡、恶劣天气和动态交通)中的安全性和可靠性仍是关键挑战[2] - 本文首次从安全关键视角对BEV感知进行全面综述,系统分析当前主流框架及实现策略,并将其划分为三个渐进阶段:单模态车载感知、多模态车载感知和多智能体协作感知[2] BEV感知的本质(What) - BEV感知是一种高效的空间表征范式,能够将来自多种传感器模态(如相机、激光雷达、毫米波雷达)的异构数据投影到统一的BEV坐标系中[6] - 通过这种投影,系统可构建周围环境的一致性结构化空间语义地图,消除传感器特有的视角差异[6] - 自上而下的视角能够帮助系统准确感知和理解物体间的空间关系,大幅降低多视角与多模态数据融合的复杂度[6] BEV感知的重要性(Why) - 凭借统一且可解释的空间表征,BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础[8] - 统一坐标系不仅简化了车载与路侧传感器的融合过程,还能支持多车辆与基础设施间的高效信息共享,突破单车辆感知的局限性[8] - BEV表征具备结构化、一致性的语义信息,能够为路径规划、车辆控制等下游任务提供支持,成为复杂协作驾驶场景中"感知-决策"环节的关键桥梁[8] BEV感知的实现方式(How) - 安全导向的BEV感知(SafeBEV)演进划分为三个主要阶段:SafeBEV 1.0(单模态车载感知)、SafeBEV 2.0(多模态车载感知)和SafeBEV 3.0(多智能体协作感知)[12] - 各阶段的特征与技术进展在后续章节详细阐述,包括单模态感知的局限性、多模态融合策略以及多智能体协作的优势[12] SafeBEV 1.0:单模态车载感知 - 该阶段采用单一传感器(如相机或LiDAR)实现基于BEV的场景理解,具有系统复杂度低、计算成本低的优势[13][20] - 基于相机的方法依赖单应性变换或数据驱动的BEV建模,分为稀疏范式与密集范式两类[13] - 基于激光雷达的方法通过点云体素化、稀疏卷积或PointNet等技术提取BEV特征,在空间分辨率与计算效率间取得平衡[13] - 但在恶劣条件下鲁棒性有限:相机方法对光照变化、遮挡和深度估计误差敏感,激光雷达方法面临点云稀疏性和天气导致的性能衰减问题[20][41] SafeBEV 2.0:多模态车载感知 - 该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能,突破单模态系统的局限性,增强遮挡与恶劣天气下的鲁棒性[14][42] - 融合策略分为五类:相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合[14][42] - 根据融合阶段的不同,每类策略又可进一步分为单阶段融合(SSF)和多阶段融合(MSF)[42] - 这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性[14] SafeBEV 3.0:多智能体协作感知 - 随着车联网(V2X)技术的发展,自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理,突破单智能体感知的局限性[15][72] - 通过在统一BEV空间中聚合多源传感器数据,协作感知能够实现全局环境建模,为动态交通中的安全导航提供关键支持[15][72] - V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术,在降低通信成本的同时实现实时、可扩展的协作[15] - 多智能体观测的时空融合技术能够增强全局态势感知,提升对遮挡或远距离目标的感知能力[15] BEV感知数据集 - 高质量数据集是感知算法研发与评估的核心基础,设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要[98] - 车载BEV数据集分为单模态与多模态两类,单模态数据集支持专项研究,多模态数据集支持传感器融合策略的研发[99][102] - 多智能体协作感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展,为基于BEV的协作感知研究提供了关键基础[104][105] - 路侧感知数据集利用固定路侧单元实现高精度、广范围的环境感知,具有稳定、抗遮挡的视角及广阔的时空覆盖范围[107] 挑战与未来方向 - BEV感知在开放世界场景下面临关键安全挑战,包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟[2][16] - 未来研究方向包括与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用[2][16] - 多模态融合仍面临标定与同步、环境干扰、实时性约束和视野局限等挑战[66][70] - 多智能体协作感知需解决通信可靠性、时空对齐及系统可扩展性三大关键挑战[97]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 11:56
VLA技术演进 - VLA成为自动驾驶主流关键词 新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题 依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷 泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动 赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景 实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器 模块化VLA模型 统一端到端VLA模型 推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力 掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集 包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队 包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡 推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程 包含课题概览 选题讨论 算法详解和论文写作方法论[26] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业 课后自学时间至少1-2小时[20] - 最终产出包括论文初稿 项目结业证书和优秀学员推荐信[23]
端到端再进化!用扩散模型和MoE打造会思考的自动驾驶Policy(同济大学)
自动驾驶之心· 2025-09-15 07:33
自动驾驶技术范式演进 - 端到端技术直接映射传感器输入到驾驶操作,跳过人为感知标注和层级信息损失,但现有方法面临多模态分布处理不足、生成平均化动作导致不安全行为的问题[2] - 强化学习方法能在不确定性下优化策略,但对数据需求极高、训练不稳定且难以扩展到高安全性真实道路场景[2] - 大模型如视觉-语言模型和视觉-语言-动作模型在场景理解和泛化能力表现不错,但实际连续控制中受推理速度慢、动作不连贯和安全性保障难度大的限制[2] 扩散模型在自动驾驶中的应用 - 扩散策略将动作生成视为逐步去噪过程,能更好表达多种驾驶选择并保持轨迹时序一致性和训练稳定性[3] - 扩散模型通过直接建模输出动作空间,为生成平滑可靠驾驶轨迹提供更强大灵活的思路,适合解决驾驶决策多样性和长期稳定性问题[3] - 在机器人控制领域,扩散策略已证明比传统模仿学习和强化学习方法更鲁棒稳定,将轨迹生成问题转变为生成式建模问题[12] 专家混合技术集成 - 专家混合技术通过按需激活少量专家,使模型在保持计算效率同时具备更强扩展性和模块化能力[3] - 在自动驾驶中,MoE被尝试用于多任务策略和模块化预测,但多数设计面向具体任务,限制专家复用性和灵活组合能力[3] - 将MoE融入扩散策略可构建抽象驾驶知识模块,实现真正面向端到端自动驾驶的知识驱动策略框架[15] 知识驱动扩散策略框架 - KDP框架结合扩散模型和MoE优点:扩散模型保证生成轨迹多样性和稳定性,MoE将专家组织成结构化知识单元如纵向控制、交互处理和横向规划[4] - 框架注重知识灵活复用和组合而非任务中心设计,实验证明在多样性、稳定性和泛化性上具有优势[4][6] - 采用端到端思路直接将驾驶环境观测生成控制动作,输入包括自车状态、LiDAR点云和高层导航指令,提供完整环境理解[18] 模型架构与性能 - 模型规模研究表明参数量与驾驶性能正相关:Giant模型1.559亿参数推理延迟81.61毫秒,成功率最高但仍满足实时要求[44][46][48] - 在匝道场景成功率100%零碰撞,交叉口场景成功率94%,环岛场景成功率90%,全面优于PPO-Lag、RPID和IBC基线模型[51][57] - 消融实验显示去除MoE路由器导致成功率下降约6%,移除知识正则化使80%计算集中在两个专家,减少扩散步数从100步到20步使成功率下降3%[54][55][56] 专家激活模式分析 - 时间维度激活呈现稀疏阶段性特点,激活峰值与驾驶任务关键阶段吻合:匝道场景中Expert 3负责纵向控制,交叉口场景Expert 1和5负责交互决策[62] - 场景层级专精与复用显示非均匀但非排他分布:Expert 3专精匝道、Expert 5专精交叉口、Expert 6和8专精环岛,Expert 1和4在多场景复用[64] - 稀疏专家路由机制具备较强环境适应性和知识组合能力,在未调优情况下能在多种复杂路况中平稳运行[70] 典型案例表现 - 匝道合流场景在卡车加塞前成功预判并平稳减速保持安全间距,展现稳定纵向控制能力[69] - 无保护左转场景在交叉口平稳减速等待安全间隙后完成左转,轨迹平滑自然[69] - 直行交互场景面对多车高速抢行动态调整策略确保安全通行[69] - 环岛三出口场景精准控制横向位置和角度,在高复杂度环岛中选择正确出口[69]
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-14 00:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-12 07:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-11 07:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-09-11 07:33
自动驾驶技术演进 - 自动驾驶技术从传统模块化架构向端到端VLA模型演进 解决错误累积和信息损失问题[2] - 传统模块化架构存在错误累积效应 上游模块微小误差会逐级传递放大[2] - 纯视觉端到端模型存在黑箱问题和因果混淆 可能学到虚假关联而非真正因果关系[2] - VLA模型通过引入语言作为中间表征 赋予模型推理解释和交互能力[2][3] - VLA模型可利用LLM预训练的世界知识 理解复杂交通场景并做出符合逻辑决策[3] VLA技术优势 - VLA模型提升可解释性与可信赖性 能用自然语言解释决策依据[3] - VLA模型增强泛化与处理长尾场景能力 通过语言抽象和推理能力泛化到未见场景[3] - VLA实现自然人机交互 用户可通过自然语言向车辆下达高级指令[3] - VLA范式打造感知认知决策一体化智能体 不仅是会开车更能理解世界与人沟通的AI驾驶员[3] 论文辅导课程内容 - 课程系统讲解VLA自动驾驶重点理论知识 帮助形成清晰知识体系[4] - 课程将模型理论与代码实践结合 协助开发设计新模型[4] - 课程提供论文写作方法论和投稿建议 解决文章不会写不会投问题[4] - 课程时长12周在线小组科研加2周论文指导和10周论文维护期[5][12] - 课程提供经典论文前沿论文和代码实现 包括创新点baseline数据集[5][10] 课程收获 - 学员可获得对典型论文分析方法 理解重点算法与原理清晰不同算法优劣势[5][12] - 导师为每位学员提供研究idea 即使自己没想到合适idea也能进行后续研究[5][12] - 学员coding能力增强 在老师准备baseline代码和数据集上高效展开研究[5][12] - 学员获得论文写作自查修改方法论 以及投稿建议[5][13] - 学员可能产出一篇论文初稿 通过完全投入课程学习与实践[13] 课程大纲 - 课程覆盖传统端到端自动驾驶 VLA端到端自动驾驶模块化VLA模型等内容[6][8][19] - 具体包括传统端到端介绍 VLA端到端介绍 模块化VLA模型 统一端到端VLA模型等[6][8][24] - 课程包含论文写作方法论和课题汇报与投稿意见[8][25] - 每周课时1-1.5小时 共14周课程[24][25] - 课程采用2+1式师资 主导师由名校教授行业导师担任 副导师由博士硕士担任[21] 招生要求 - 学员需具备深度学习基础 对自动驾驶算法有简单了解[14] - 学员需熟悉掌握python语法和PyTorch使用[14] - 学员需完成在线1v1面试[14] - 硬件要求最好具备8张4090显卡或以上设备 最低不少于4张4090显卡[17] - 学习要求每周上课前阅读资料完成作业 课上积极参与讨论 应该全勤[17] 服务支持 - 课程提供公开数据集 如nuScenes Waymo Argoverse等自动驾驶数据集[21] - 课程提供baseline代码 包括基于模仿学习扩散模型和VLA的端到端自动驾驶代码[22] - 课程提供必读论文 包括A Survey on Vision-Language-Action Models等5篇核心论文[23] - 上课平台为腾讯会议直播加小鹅通回放[26] - 答疑周期为6个月 授课周期为3.5-4个月[27]
当导师让我去看多模态感知研究方向后......
自动驾驶之心· 2025-09-08 07:34
自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势:提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式 激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式:早期融合(输入端拼接原始数据 计算量巨大) 中期融合(传感器特征提取后融合 当前主流方案) 后融合(决策层结果融合 可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合成为最前沿方向:通过跨模态注意力机制学习不同模态深层关系 实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积 直接从原始传感器数据输出3D目标框 提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周:包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期 至多8人 采用"2+1"式师资配置(名校教授+行业导师+科研班主任) [5][11] - 硬件要求最低2张4090显卡 推荐4张4090或以上性能设备 支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈:从传统模块化感知系统到BEV视角融合 再到基于Transformer的端到端融合 [15] - 提供完整科研支持:包括公开数据集(nuScenes、KITTI、Waymo Open Dataset)、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术 涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿 获得结业证书和推荐信(根据优秀程度) [11] - 培养体系解决三大问题:知识体系碎片化 动手能力不足 论文写作投稿困难 [5] - 课程包含完整论文方法论:从选题方法、实验方法到写作方法和投稿建议 [4][10]