Workflow
Autonomous Driving
icon
搜索文档
传统的感知被嫌弃,VLA逐渐成为新秀......
自动驾驶之心· 2025-07-25 16:17
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 [1] - 二段式端到端以PLUTO为代表,专注于模型实现自车规划 [1] - 一段式端到端包括UniAD(基于感知)、OccWorld(基于世界模型)、DiffusionDrive(基于扩散模型)等不同流派 [1] - 基于VLM的方法推动自动驾驶VLA方向,开启大模型时代下的端到端研究 [1] - 传统BEV感知、车道线、Occupancy等研究方向在顶会中逐渐减少 [1] 学术界与工业界研究方向差异 - 工业界仍在优化传统感知、规划方案 [1] - 学术界转向大模型与VLA方向,为新兴研究领域 [1] - 新领域对初学者门槛较高,仅少数科研强者可独立产出 [1] - 论文研究方向建议优先考虑大模型、VLA领域 [1] VLA科研论文辅导课题 - 课程目标包括系统掌握VLA理论体系、提升动手能力、论文写作与投稿方法 [6] - 招生对象涵盖本硕博学生、留学申请者、自动驾驶从业者等 [7] - 课程收获包括经典与前沿论文分析、创新点挖掘、实验方法、写作投稿技巧 [8] - 硬件要求最低4张4090显卡,建议8张或租赁云服务器 [11] - 基础要求包括Python、PyTorch、Linux开发能力 [11] 课程结构与支持 - 12周在线科研+2周论文指导+10周维护期 [10] - 提供导师定制idea、baseline代码、数据集支持 [10][14][15] - 采用"2+1"多师制,含主导师与班主任全程跟踪 [13] - 学习阶段包括基础测试、个性化教学、学术回顾等 [13] - 产出包括论文初稿、结业证书、推荐信(优秀学员) [13] 学习资源与安排 - 提供开源代码库(UniAD、DiffusionDrive、OpenDriveVLA等) [14] - 必读论文涵盖VLA模型综述、Senna、SimLingo等前沿研究 [16] - 数据集采用nuScenes、Waymo、Argoverse等公开资源 [15] - 学习要求包括课前阅读、按时作业、全勤参与、学术诚信 [13]
基于3DGS和Diffusion的自动驾驶闭环仿真论文总结
自动驾驶之心· 2025-07-24 17:42
自动驾驶仿真技术发展 核心技术框架 - 自动驾驶仿真器由场景渲染、场景外推、3D资产重建、Relighting、智能体、天气系统等模块构成,通过闭环模拟实现高真实感[1] - 静态环境建模采用3D Gaussian Splatting与Diffusion Model技术,可还原城市细节至路边奶茶杯级别[1] 关键技术突破 静态环境构建 - OmniRe、Street Gaussians、ReconDreamer、StreetCrafter等方案实现高精度3D场景重建,支持逼真城市建模[1] 动态资产采集 - 通过环视采集系统提取汽车、行人、动物等动态元素,MADrive与3DRealCar技术实现复杂场景对象抠像[2] 视觉渲染优化 - R3D2与DiPIR技术完成动态资产重打光,模拟清晨/黄昏/暴雨等复杂光照条件,确保毛发反光等细节真实[2] 智能体行为模拟 - BehaviorGPT、SMART、DFTO-FW等模型赋予资产自主决策能力,支持变道不打灯、行人拍照等拟人行为[4][8] 环境系统增强 - Weather-Magician与RainyGS实现动态天气模拟,可生成雨雪雾霾等极端条件,测试传感器失效场景[4][9] 行业应用与测试场景 极端场景模拟 - 构建"外卖小哥+快递电瓶车+遛狗大妈+抛洒钉子"的复合挑战场景,验证自动驾驶系统鲁棒性[4] 技术验证方向 - 覆盖传感器失效(雨刮罢工、摄像头模糊)、感知干扰(激光雷达雾霾衰减)等30+技术栈测试需求[6][9] 行业生态发展 技术社区规模 - 形成4000人规模的专业社区,吸引300+企业与科研机构参与,覆盖感知、定位、规划控制全技术链[6] 技术培训体系 - 提供端到端自动驾驶、BEV感知、多传感器融合等30+方向课程,包含CUDA部署、轨迹预测等实战内容[6][8][10]
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]
行车报漏检了,锅丢给了自动标注。。。
自动驾驶之心· 2025-07-22 15:28
占用网络(OCC)技术 - 占用网络将空间划分成小网格预测每个网格的占用情况 用于解决异形障碍物检测问题 [3] - 核心功能包括建模异形障碍物(如倒地树木 不规则车辆)和路面等背景元素 [4] - 自2022年特斯拉宣布Occupancy Network上车后 已成为纯视觉智驾方案标配 [2] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹 [9] - 多模态数据融合复杂 需同步激光雷达 相机 雷达等多源传感器数据 [9] - 动态场景泛化难度大 交通参与者行为不确定性增加标注模型挑战 [9] - 标注效率与成本矛盾 高精度依赖人工校验但海量数据导致周期长成本高 [9] - 量产场景泛化要求高 需应对不同城市 道路 天气等多样化数据 [9] 自动标注解决方案 - 生成OCC训练真值后 使用计算量更大模型训练生成伪标签 [8] - 质量把控方案包括:2D-3D目标检测一致性 与端侧模型比较 人工标注介入修改后质检 [8] - 自动化标注数据可用于车端模型训练和云端大模型迭代优化 [8] 4D自动标注课程内容 - 课程涵盖动静态 OCC和端到端自动化标注全流程 [10] - 包括动态障碍物检测跟踪 激光视觉SLAM重建 静态元素标注等核心模块 [10][13][14][16] - 重点讲解通用障碍物OCC标注 包括基于lidar和视觉的真值生成方案 [17][18] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域等全流程打通 [19] - 数据闭环专题分享行业主流公司架构 痛点及面试准备等实战经验 [21] 行业技术发展 - 占用网络对训练数据标注需求旺盛 尤其需要更昂贵的点云标注 [2] - 业内正推进OCC自动化标注以快速迭代模型泛化性能 [2] - 4D自动标注(3D空间+时间维度)是自动驾驶数据闭环的算法核心 [11]
WeRide Teams Up With Lenovo to Launch 100% Automotive-Grade HPC 3.0 Platform Powered by NVIDIA DRIVE AGX Thor Chips
Globenewswire· 2025-07-21 19:58
文章核心观点 WeRide推出与联想联合开发、由英伟达最新芯片驱动的HPC 3.0高性能计算平台,应用于Robotaxi GXR,降低成本、提升性能,助力大规模商业部署,未来还将拓展到更多L4自动驾驶车辆[1][6] 平台发布信息 - WeRide于2025年7月21日推出HPC 3.0高性能计算平台,与联想联合开发,由英伟达最新DRIVE AGX Thor芯片驱动,首次应用于Robotaxi GXR,使其成为全球首款基于英伟达DRIVE AGX Thor的量产L4级自动驾驶汽车[1] 平台性能特点 - 采用双英伟达DRIVE AGX Thor配置,运行安全认证的DriveOS,基于联想AD1 L4自动驾驶域控制器构建,可提供高达2000 TOPS的AI计算能力,是支持L4级自动驾驶最强大的计算平台[2] 平台成本优势 - 相比HPC 2.0,HPC 3.0将大规模生产成本降至四分之一,将自动驾驶套件成本降低50%,生命周期内总拥有成本(TCO)较前代降低84%[4] 平台安全标准 - HPC 3.0通过AEC - Q100、ISO 26262和IATF 16949标准认证,冗余设计架构达到最高ASIL - D安全级别,故障率低于50 FIT,平均无故障运行时间(MTBF)为120000至180000小时[5] 平台环境适应性 - HPC 3.0可在-40°C至85°C的极端温度下运行,通过热、冲击和腐蚀测试,完全符合全球VOCs环境标准,适用于中东、东南亚、欧洲等国际市场[5] 各方观点 - WeRide创始人兼CEO表示与联想和英伟达的合作是重大突破,将HPC 3.0集成到Robotaxi GXR可提升车辆可靠性和响应能力,未来计划将该平台扩展到更多L4自动驾驶车辆[6] - 联想车辆计算副总裁称与WeRide在AD1域控制器上的合作加速了创新,联想致力于推动自动驾驶解决方案的全球商业化[7] - 英伟达汽车副总裁祝贺WeRide取得成就,认为其基于英伟达加速计算和DriveOS部署L4自动驾驶系统是重要里程碑[9] 公司背景 - WeRide是全球自动驾驶行业领导者和先行者,也是首家公开上市的Robotaxi公司,其自动驾驶车辆已在10个国家的30多个城市进行测试或运营,产品在5个市场获得自动驾驶许可[11] - 公司凭借WeRide One平台提供L2至L4级自动驾驶产品和服务,入选《财富》杂志2024年“未来50强”榜单[11]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
Waymo在美国得州奥斯汀扩大无人驾驶服务范围
快讯· 2025-07-18 18:18
公司动态 - Alphabet旗下无人驾驶技术公司Waymo宣布自7月17日起在美国得州奥斯汀扩大无人驾驶服务覆盖范围 [1]
WeRide Launches Southeast Asia’s First Fully Driverless Robobus Operations at Resorts World Sentosa, Singapore
GlobeNewswire· 2025-07-17 17:52
公司动态 - 公司在新加坡圣淘沙名胜世界推出东南亚首辆完全无人驾驶Robobus,无需安全员随车[1] - 经过一年安全运营(自2024年6月起)后获得新加坡陆路交通管理局(LTA)批准,累计完成数千次自动驾驶行程,运送数万名乘客[2] - Robobus采用固定12分钟循环路线,连接名胜世界内多个酒店和商业设施,配备360度探测200米外障碍物的LIDAR系统,保持零事故记录[5] 技术进展 - 自动驾驶系统通过LTA严格评估,从有安全员模式过渡到完全无人驾驶+远程监控模式[9] - 公司产品线覆盖L2-L4级自动驾驶技术,智能平台WeRide One具备高适应性和成本效益[12] - 2024年11月在新加坡滨海湾部署首辆商业化自动驾驶清扫车Robosweeper,2025年3月扩展至裕廊湖花园[10] 战略合作 - 与新加坡经济发展局(EDB)合作建立研发中心,推动自动驾驶创新和人才招聘(软件/机器学习工程师等)[6][7] - 配合新加坡政府2025年底将自动驾驶纳入公共交通网络的规划,提供规模化移动解决方案[6] - 公司已在10个国家30个城市开展测试运营,是唯一在中东、欧美等5个市场获得自动驾驶许可的技术企业[12] 行业影响 - 该项目标志着东南亚移动出行领域的突破性进展,验证自动驾驶技术大规模应用的可靠性[4] - 新加坡政府将自动驾驶视为缓解人力短缺、提升交通连接效率的关键技术,持续开放企业合作[8][9] - 公司入选《财富》杂志2024年"未来50强"榜单,展现行业领导地位[12]