Autonomous Driving

搜索文档
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]
行车报漏检了,锅丢给了自动标注。。。
自动驾驶之心· 2025-07-22 15:28
占用网络(OCC)技术 - 占用网络将空间划分成小网格预测每个网格的占用情况 用于解决异形障碍物检测问题 [3] - 核心功能包括建模异形障碍物(如倒地树木 不规则车辆)和路面等背景元素 [4] - 自2022年特斯拉宣布Occupancy Network上车后 已成为纯视觉智驾方案标配 [2] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹 [9] - 多模态数据融合复杂 需同步激光雷达 相机 雷达等多源传感器数据 [9] - 动态场景泛化难度大 交通参与者行为不确定性增加标注模型挑战 [9] - 标注效率与成本矛盾 高精度依赖人工校验但海量数据导致周期长成本高 [9] - 量产场景泛化要求高 需应对不同城市 道路 天气等多样化数据 [9] 自动标注解决方案 - 生成OCC训练真值后 使用计算量更大模型训练生成伪标签 [8] - 质量把控方案包括:2D-3D目标检测一致性 与端侧模型比较 人工标注介入修改后质检 [8] - 自动化标注数据可用于车端模型训练和云端大模型迭代优化 [8] 4D自动标注课程内容 - 课程涵盖动静态 OCC和端到端自动化标注全流程 [10] - 包括动态障碍物检测跟踪 激光视觉SLAM重建 静态元素标注等核心模块 [10][13][14][16] - 重点讲解通用障碍物OCC标注 包括基于lidar和视觉的真值生成方案 [17][18] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域等全流程打通 [19] - 数据闭环专题分享行业主流公司架构 痛点及面试准备等实战经验 [21] 行业技术发展 - 占用网络对训练数据标注需求旺盛 尤其需要更昂贵的点云标注 [2] - 业内正推进OCC自动化标注以快速迭代模型泛化性能 [2] - 4D自动标注(3D空间+时间维度)是自动驾驶数据闭环的算法核心 [11]
WeRide Teams Up With Lenovo to Launch 100% Automotive-Grade HPC 3.0 Platform Powered by NVIDIA DRIVE AGX Thor Chips
Globenewswire· 2025-07-21 19:58
文章核心观点 WeRide推出与联想联合开发、由英伟达最新芯片驱动的HPC 3.0高性能计算平台,应用于Robotaxi GXR,降低成本、提升性能,助力大规模商业部署,未来还将拓展到更多L4自动驾驶车辆[1][6] 平台发布信息 - WeRide于2025年7月21日推出HPC 3.0高性能计算平台,与联想联合开发,由英伟达最新DRIVE AGX Thor芯片驱动,首次应用于Robotaxi GXR,使其成为全球首款基于英伟达DRIVE AGX Thor的量产L4级自动驾驶汽车[1] 平台性能特点 - 采用双英伟达DRIVE AGX Thor配置,运行安全认证的DriveOS,基于联想AD1 L4自动驾驶域控制器构建,可提供高达2000 TOPS的AI计算能力,是支持L4级自动驾驶最强大的计算平台[2] 平台成本优势 - 相比HPC 2.0,HPC 3.0将大规模生产成本降至四分之一,将自动驾驶套件成本降低50%,生命周期内总拥有成本(TCO)较前代降低84%[4] 平台安全标准 - HPC 3.0通过AEC - Q100、ISO 26262和IATF 16949标准认证,冗余设计架构达到最高ASIL - D安全级别,故障率低于50 FIT,平均无故障运行时间(MTBF)为120000至180000小时[5] 平台环境适应性 - HPC 3.0可在-40°C至85°C的极端温度下运行,通过热、冲击和腐蚀测试,完全符合全球VOCs环境标准,适用于中东、东南亚、欧洲等国际市场[5] 各方观点 - WeRide创始人兼CEO表示与联想和英伟达的合作是重大突破,将HPC 3.0集成到Robotaxi GXR可提升车辆可靠性和响应能力,未来计划将该平台扩展到更多L4自动驾驶车辆[6] - 联想车辆计算副总裁称与WeRide在AD1域控制器上的合作加速了创新,联想致力于推动自动驾驶解决方案的全球商业化[7] - 英伟达汽车副总裁祝贺WeRide取得成就,认为其基于英伟达加速计算和DriveOS部署L4自动驾驶系统是重要里程碑[9] 公司背景 - WeRide是全球自动驾驶行业领导者和先行者,也是首家公开上市的Robotaxi公司,其自动驾驶车辆已在10个国家的30多个城市进行测试或运营,产品在5个市场获得自动驾驶许可[11] - 公司凭借WeRide One平台提供L2至L4级自动驾驶产品和服务,入选《财富》杂志2024年“未来50强”榜单[11]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
Waymo在美国得州奥斯汀扩大无人驾驶服务范围
快讯· 2025-07-18 18:18
公司动态 - Alphabet旗下无人驾驶技术公司Waymo宣布自7月17日起在美国得州奥斯汀扩大无人驾驶服务覆盖范围 [1]
WeRide Launches Southeast Asia’s First Fully Driverless Robobus Operations at Resorts World Sentosa, Singapore
GlobeNewswire· 2025-07-17 17:52
公司动态 - 公司在新加坡圣淘沙名胜世界推出东南亚首辆完全无人驾驶Robobus,无需安全员随车[1] - 经过一年安全运营(自2024年6月起)后获得新加坡陆路交通管理局(LTA)批准,累计完成数千次自动驾驶行程,运送数万名乘客[2] - Robobus采用固定12分钟循环路线,连接名胜世界内多个酒店和商业设施,配备360度探测200米外障碍物的LIDAR系统,保持零事故记录[5] 技术进展 - 自动驾驶系统通过LTA严格评估,从有安全员模式过渡到完全无人驾驶+远程监控模式[9] - 公司产品线覆盖L2-L4级自动驾驶技术,智能平台WeRide One具备高适应性和成本效益[12] - 2024年11月在新加坡滨海湾部署首辆商业化自动驾驶清扫车Robosweeper,2025年3月扩展至裕廊湖花园[10] 战略合作 - 与新加坡经济发展局(EDB)合作建立研发中心,推动自动驾驶创新和人才招聘(软件/机器学习工程师等)[6][7] - 配合新加坡政府2025年底将自动驾驶纳入公共交通网络的规划,提供规模化移动解决方案[6] - 公司已在10个国家30个城市开展测试运营,是唯一在中东、欧美等5个市场获得自动驾驶许可的技术企业[12] 行业影响 - 该项目标志着东南亚移动出行领域的突破性进展,验证自动驾驶技术大规模应用的可靠性[4] - 新加坡政府将自动驾驶视为缓解人力短缺、提升交通连接效率的关键技术,持续开放企业合作[8][9] - 公司入选《财富》杂志2024年"未来50强"榜单,展现行业领导地位[12]
WeRide to Announce Second Quarter 2025 Financial Results on July 31, 2025
Globenewswire· 2025-07-16 18:00
文章核心观点 公司计划于2025年7月31日美国市场开盘前发布2025年第二季度财务结果,管理层将在当天上午8点(美国东部时间)举行财报电话会议 [1] 财务结果与会议安排 - 公司计划2025年7月31日美国市场开盘前发布2025年第二季度财务结果 [1] - 管理层将于2025年7月31日上午8点(美国东部时间)举行财报电话会议,对应北京时间为当天晚上8点 [1] - 会议注册链接为https://register-conf.media-server.com/register/BI47b984221bb74f7db1dcbd3748e8a875,参与者需提前完成在线注册,注册后将获拨入号码和访问PIN [1] - 会议直播和存档将在公司投资者关系网站ir.weride.ai上提供 [2] 公司概况 - 公司是自动驾驶行业全球领导者和先驱,也是首家公开上市的Robotaxi公司 [3] - 公司自动驾驶车辆已在10个国家的30多个城市进行测试或运营 [3] - 公司是首个且唯一在中、阿联酋、新加坡、法国和美国五个市场获得自动驾驶许可的科技公司 [3] - 依托WeRide One平台,公司提供从L2到L4的自动驾驶产品和服务,满足出行、物流和环卫行业的交通需求 [3] - 公司入选《财富》杂志2024年“未来50强”榜单 [3] - 公司官网为https://www.weride.ai [3] 联系方式 - 投资者咨询邮箱为ir@weride.ai [4] - 媒体咨询邮箱为pr@weride.ai [4]
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 16:10
自动驾驶算法模型研究进展 - MCAM模型在BDD-X数据集上驾驶行为描述任务BLEU-4提升至35.7%,推理任务BLEU-4提升至9.1%,显著优于DriveGPT4等基线模型[1] - TigAug技术使交通灯检测模型错误识别率降低39.8%,增强数据重新训练后mAP平均提升67.5%[12][17] - LeAD系统在CARLA仿真平台实现71.96驾驶分,路线完成率93.43%,超越现有基线模型[23][27] - DRO-EDL-MPC算法计算效率提升5倍,不确定场景下碰撞率接近于零[33][40] - 3DGS-LSR框架在KITTI数据集实现厘米级定位,城镇道路误差0.026m,林荫道误差0.029m[43][47] 自动驾驶数据集与框架创新 - NavigScene框架使nuScenes数据集平均L2轨迹误差降低至0.76m,比基线提升24%,碰撞率从32.48‱降至20.71‱[52][58] - LiMA框架在nuScenes数据集LiDAR语义分割mIoU达56.67%,3D目标检测mCE降至91.43%[61][68] - L4 Motion Forecasting数据集包含德美两国400+小时原始数据,覆盖250km独特道路[78][82] - 动态掩码与相对动作空间缩减策略使CARLA仿真训练效率提升2倍,车道偏离降低至0.07米[71][76] 技术突破与性能提升 - DSDAG因果图建模自车状态动态演化,为驾驶视频理解提供结构化理论基础[5] - TigAug单张图像合成耗时0.88秒,模型重训练平均耗时36小时[13] - LeAD系统通过LLM增强实现场景语义理解和类人逻辑推理[25] - DR-EDL-CVaR约束同时处理数据不确定性和模型不确定性[38] - 3DGS-LSR摆脱对GNSS依赖,仅用单目RGB图像实现厘米级重定位[46]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 20:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]