Workflow
自动驾驶之心
icon
搜索文档
AI Day直播!免位姿前馈4D自动驾驶世界DGGT
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 自动驾驶行业在动态场景重建与仿真领域面临效率与灵活性挑战 现有方法依赖逐场景优化、已知相机位姿或短时间窗口 导致速度慢、实用性受限 [3] - 提出一种名为Driving Gaussian Grounded Transformer 的统一免位姿前馈4D重建框架 该框架将相机位姿重新定义为模型输出 可直接从稀疏无位姿图像进行重建 并支持长序列任意数量视角 [3] - 该方法通过单次前向传播实现毫秒级动态场景生成与动静解耦 在速度与性能上达到领先水平 并支持跨数据集零样本迁移与实例级场景编辑 为构建大规模世界模拟器提供了高效解决方案 [4][9] 技术方案与框架 - 框架核心是联合预测每帧的3D高斯图与相机参数 通过轻量级动态头解耦动态元素 并利用寿命头调制随时间变化的可见性以保持时序一致性 [3] - 采用基于扩散的渲染细化技术 进一步减少了运动或插值伪影 提升了在稀疏输入条件下的新视角合成质量 [4] - 该方法是前馈式且无需位姿输入的算法 在大型驾驶数据集上进行训练与评估 这些数据集包括Waymo、nuScenes和Argoverse2 [4] 性能与评估 - 评估结果表明 无论是在各数据集上单独训练 还是在跨数据集的零样本迁移任务中 该方法均优于已有工作 [4] - 该方法具有良好的扩展性 其性能随着输入帧数的增加而持续提升 [4] 行业应用与前景 - 该技术旨在打破真实数据的局限 实现用于自动驾驶的重仿真 并摆脱对高精度位姿的依赖 实现毫秒级动态重建 [9][10] - 该框架支持跨域泛化与实例级场景编辑 为应对现有动态生成瓶颈和构建未来通用世界模型提供了高效解决方案 [9][10]
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 08:53
文章核心观点 文章系统阐述了特斯拉FSD等端到端自动驾驶方案面临的三大核心挑战,并分别提出了三项创新性的技术解决方案,这些方案相互协同,形成了一个从高效感知决策到可解释性增强,再到物理一致评估的完整技术栈,有望推动行业向L4/L5级别自动驾驶发展 [30][31] 挑战一:维度灾难及其解决方案 - **挑战核心**:端到端自动驾驶面临维度灾难,需在输入层面高效处理海量多模态时序数据,在输出层面实现从原始感知到规划决策的真正端到端映射 [4] - **解决方案**:提出UniLION框架,这是业界首个基于线性组RNN的统一自动驾驶框架,采用类ViT范式,将多视角图像、LiDAR点云和时序信息统一转换为token序列,在3D空间进行高效融合 [4] - **架构特点**:UniLION具有统一的3D骨干网络,基于线性组RNN实现线性计算复杂度,解决了传统Transformer处理长序列时的计算效率瓶颈,能无缝处理不同模态和时序信息,无需显式融合模块 [7] - **核心组件**:UniLION Block包含四个关键设计:UniLION Layer(利用线性组RNN实现长距离特征交互)、3D空间特征描述器、体素合并与扩展、自回归体素生成,采用层次化结构提取多尺度特征 [9] - **性能表现**:在多项任务中达到卓越性能,包括检测任务75.4% NDS和73.2% mAP,跟踪任务76.5% AMOTA,地图分割73.3% mIoU,占用预测51.3% RayIoU,车辆运动预测0.57 minADE,行人运动预测0.37 minADE,规划任务碰撞率仅0.18% [11] 挑战二:可解释性与安全保障及其解决方案 - **挑战核心**:自动驾驶系统需具备可解释性以确保安全,但传统LLM缺乏精确3D空间感知能力,而基于视觉的模型缺乏可解释性和自然语言交互能力 [12] - **解决方案**:提出DrivePI框架,这是业界首个以单一LLM模型(仅0.5B参数的Qwen-2.5)实现视觉-语言-行为(VLA)和视觉-行为(VA)架构统一的框架 [13] - **架构特点**:DrivePI是一种空间感知4D多模态大语言模型,引入激光雷达作为补充传感模态以提供精确3D几何信息,生成中间的精细3D感知和预测表示,确保MLLM输出特征保持可靠的空间感知能力 [14] - **性能表现**:在文本理解方面超越OpenDriveVLA-7B模型2.5个百分点(60.7% vs 58.2%),碰撞率比ORION降低70%(从0.37%降至0.11%),3D占用性能超过FB-OCC模型10.3个RayIOU点(49.3% vs 39.0%),轨迹规划L2误差比VAD低32%(0.49m vs 0.72m) [13] - **主要贡献**:提出了首个统一的空间感知4D MLLM框架,弥合了基于视觉和基于VLA范式之间的技术鸿沟,尽管仅使用0.5B参数骨干网络,但在3D占用和占用流预测方面优于现有的基于视觉的专用模型 [17] 挑战三:系统评估及其解决方案 - **挑战核心**:自动驾驶系统评估面临人类驾驶行为不确定性与复杂交互场景多样性的挑战,传统方法难以覆盖足够的边缘场景和安全关键场景 [18] - **解决方案思路**:需要开发一个具备物理感知场景生成能力、长时序预测能力和高度可控性的自动驾驶世界模型 [20] - **具体解决方案**:提出GenieDrive,这是业界首个采用4D占据表征作为中间状态的自动驾驶世界模型,采用“先生成4D占据、再生成视频”的两阶段框架,能生成长达20秒的多视角高质量视频序列 [21] - **架构特点**:GenieDrive是一种以4D Occupancy作为中间表示的自动驾驶世界模型框架,通过Tri-plane VAE高效压缩技术,仅使用现有方法58%的潜在表示数量实现SOTA的占据重建性能,大幅降低计算和存储需求 [22] - **性能表现**:在4D占据预测任务上将mIoU提高了7.2%(相比I²-World),在视频生成质量评估中将FVD指标降低了20.7% [21] - **主要贡献**:开创了“先生成4D占据、再生成视频”的全新研究路径,在仅使用3.47M参数的情况下实现了41 FPS的实时推理速度,支持长时序视频生成和场景编辑功能,为自动驾驶系统的闭环评测、难例生成和安全验证提供了强大技术支持 [27] 技术协同与生态系统 - **技术闭环**:三项技术创新形成了一个相互赋能的完整技术生态系统:UniLION提供高效的感知和决策基础,并为DrivePI提供强大的视觉编码能力;DrivePI增强了系统的可解释性和人机交互能力,同时为GenieDrive提供控制输入条件;GenieDrive则为整个系统提供可靠的评估和验证环境,并通过生成合成数据反哺UniLION和DrivePI的训练过程 [31] - **整体意义**:通过这种系统性方法,构建了一个从感知到决策再到评估的完整闭环自动驾驶技术栈,每个环节都实现了显著的性能突破,为未来更安全、更可靠、更高效的自动驾驶系统开发铺平了道路,有望加速整个行业向L4/L5级别自动驾驶的跨越式发展 [31]
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]
工业界大佬带队!三个月搞定自动驾驶世界模型......
自动驾驶之心· 2025-12-22 17:20
世界模型技术趋势与行业应用 - 世界模型是自动驾驶行业当前确定的技术趋势,可应用于数据生成和闭环仿真等领域 [1] - 特斯拉基于前馈高斯溅射技术构建世界仿真器,而小米和理想则利用世界模型进行长尾数据生成和端到端闭环仿真 [1] - 市场对掌握世界模型技术的人才需求预计在明年将更加旺盛 [1] 课程核心内容与结构 - 课程为自动驾驶领域首个面向端到端技术的进阶实战教程,旨在推动端到端技术在工业界的落地 [9] - 课程内容涵盖通用世界模型、视频生成、OCC生成等核心算法,并解析特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,学习周期预计为两个半月 [13] 详细课程大纲 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等),并介绍相关数据集与评测标准 [4] - **第二章:世界模型的背景知识** 深入讲解世界模型的技术栈,包括场景表征、Transformer、BEV感知等基础知识,这些内容是求职面试中的高频技术关键词 [4][5] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型以及特斯拉ICCV分享的世界模型模拟器等 [5] - **第四章:基于视频生成的世界模型** 重点讲解视频生成类世界模型算法,涵盖Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [6] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三篇核心论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [7] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、技术期望以及相关岗位的面试准备要点 [8] 课程关键技术覆盖 - 课程将复习Transformer并扩展至视觉Transformer,讲解CLIP和LLaVA等多模态大模型基础 [10] - 详细讲解BEV感知和占用网络,扩散模型理论及其在多模轨迹输出中的应用,以及闭环仿真中的NeRF和3DGS技术 [10] - 同时覆盖其他生成式模型,如VAE、GAN以及Next Token Prediction等方法 [10] - OCC生成类世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交的II-World等核心工作 [11] 面向人群与学习收获 - 课程面向具备一定自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并拥有概率论、线性代数及Python、PyTorch编程基础的学员 [12] - 学员需自备GPU,推荐算力在RTX 4090及以上 [12] - 课程期望使学员在学完后能达到具备1年左右经验的世界模型自动驾驶算法工程师水平 [12] - 学员将掌握世界模型技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,能够复现II-World、OpenDWM等主流算法框架,并具备设计自有世界模型并将其应用于项目的能力 [12]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 17:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
研究生实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-22 11:23
公司业务与服务模式 - 公司提供针对学术论文发表的辅导服务,旨在帮助用户在有限时间内高效产出科研成果,避免自主写作的常见问题 [2] - 服务覆盖期刊论文、会议论文、学位论文(毕业论文),以及课题和项目,提供全方位的学术支持 [8] - 服务以结果为导向,配套代码提升指导,并提供持续的服务保障,全程陪伴直至论文中稿 [8] 目标客户与用户痛点 - 目标客户包括面临论文发表压力的研究生、博士生,以及有科研需求的在职人员 [1][7] - 用户常见痛点包括:研究方向不清晰、研究想法(idea)难产、代码复现困难、实验跑不通、论文写作障碍、缺乏系统科研训练与导师反馈 [5] - 用户可能陷入追求过高创新性(novelty)而忽视项目完整性的误区,导致进度拖延 [1] 服务领域与专业方向 - 服务专注于人工智能与自动驾驶相关的前沿技术领域,具体方向包括:端到端学习、视觉语言模型(VLA)、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅(3DGS)、鸟瞰图(BEV)感知、占据网络(Occupancy Network)、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配(Flow matching)、点云感知、毫米波雷达感知、单目感知、车道线/在线高精地图等 [3] - 公司支持用户自带课题或研究方向进行咨询 [3] 师资力量与资质 - 所有辅导老师均保证来自全球QS排名前100的大学或机构 [6] - 师资人均拥有多篇顶级会议(A会)论文发表经验,且项目经验丰富 [6] - 公司承诺老师简历真实可查,合作后用户可要求查验 [6] 服务成果与案例 - 公司展示了过往学员的成功案例,涵盖从本科大三到博士五年级的不同阶段学员 [7] - 案例成果包括在SCI期刊(2区、3区)、CCF推荐会议(B类、A类)、以及各类顶会(如CVPR, emnlp)上发表论文 [7] - 服务周期通常在2至4个月之间,例如有学员在2个月内于NEUROCOMPUTING(2区)发表论文,或在4个月内于CVPR(顶会)发表论文 [7] 附加价值与承诺 - 除了论文发表,公司承诺为优秀学员提供清华大学、北京大学、麻省理工学院(MIT)等名校的推荐信,并推荐至实验室实习 [11] - 表现突出的学员可直接获得内推机会,进入如阿里巴巴达摩院、华为诺亚方舟实验室等企业研发岗位 [11] - 公司强调其务实风格,承诺只说实话、做实事,不会夸大或打鸡血,会认真听取用户情况后提供可行路径 [3] 服务定价与入门门槛 - 服务收费根据目标论文的分区(如SCI分区、会议等级)不同而定价,公司会根据用户具体情况和发文目标提供详细报价 [11] - 公司声称零基础用户也能发表论文,通过提供基础课程,让用户从文献带读学起,若踏实跟进,可在6个月内完成一篇小论文 [11]
小米7篇论文入选顶会AAAI,前沿领域全覆盖!
自动驾驶之心· 2025-12-22 11:23
文章核心观点 - 小米在AAAI 2026顶会上有7篇论文入选,覆盖了从音效编辑、语音问答、3D具身智能到自动驾驶等多个AI前沿领域,展示了其在底层技术上的全面布局和持续投入的成果 [5][6] 大规模Text-to-SQL的Schema链接 - 提出AutoLink框架,将传统一次性加载整个数据库Schema的模式,转变为让大语言模型像智能代理一样迭代式探索,只加载当前任务相关的部分 [9] - 该方法在Bird-Dev数据集上实现了97.4%的严格召回率(SOTA),在Spider-2.0-Lite上召回率达91.2%,执行准确率全球排名第二 [10] - 框架能有效处理超过3000列的大型数据库,保持高召回率、低token开销和稳健表现 [10] 大模型推理加速 - 提出SpecFormer模型,重新定义推测解码中草稿模型的角色,结合单向与双向注意力机制,使其既能理解全局上下文,又能并行生成预测 [12] - 该方法无需构建庞大的草稿树即可实现稳定加速,尤其在大批量推理场景下仍能持续提升速度 [13][15] - 相比传统方法,训练成本更低,硬件要求更友好,适合规模化部署 [15] 长语音问答 - 提出CLSR模型,旨在解决长语音处理中信息稀疏、计算成本高的问题,通过端到端检索直接从长语音中抽取最相关的片段,无需依赖庞大的ASR流水线 [16][17][23] - 引入“文本化中间表征”,将语音特征转换为类似文本的结构,以更自然、准确地进行跨模态对齐 [23] - 在四个跨模态检索数据集上均取得显著优势,超越了传统语音检索器及“ASR + 文本检索”的组合方案 [23] 多模态音效编辑 - 提出AV-Edit框架,通过结合视觉、音频、文本三模态信息来实现精细、自然且与画面一致的声效编辑 [20][21] - 核心是使用对比式音频-视觉掩码自编码器进行多模态预训练,再基于此表征训练多模态扩散Transformer,以自动移除噪声、补全声音并生成符合语境的声效 [24] - 在音效编辑任务中达到SOTA,并在更广泛的音频生成领域展现出强竞争力 [31] 具身智能任务调度 - 提出ORS3D新任务定义,要求智能体在理解语言、在3D场景中定位对象的同时,根据可并行的子任务设计最优时间安排 [26][32] - 构建了大规模数据集ORS3D-60K,覆盖4000个真实场景和6万个包含可并行子目标的复合任务 [26] - 提出GRANT模型,通过引入“调度标记”机制,使模型能明确规划任务的并行与顺序执行,在语言理解、3D grounding和调度效率三方面均取得强竞争力表现 [27][28] 空间导航 - 提出Spatial Navigation新任务,包含空间物体导航和空间区域导航两个子任务,旨在让机器人理解更复杂的空间关系指令 [33][40] - 构建了包含10,000条轨迹的空间导航数据集,以支持训练 [34] - 提出SpNav框架,结合视觉语言模型解析指令并识别目标,通过地图执行精确导航规划,在模拟与真实场景中均取得领先表现 [34][35] 自动驾驶长尾场景生成 - 提出VILTA方法,一种面向长尾场景的对抗性轨迹生成方法,将视觉语言模型引入训练闭环,对周围车辆的未来轨迹进行精细编辑 [36][37] - 引入运动学后处理机制,确保生成的对抗性轨迹满足车辆动力学约束,具有物理合理性 [38] - 在CARLA仿真中的实验表明,使用VILTA生成的场景进行强化学习优化,可显著降低自动驾驶策略的碰撞率,提升系统在复杂情形下的稳定性 [38]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-22 11:23
DiffusionDriveV2模型架构 - 整体架构基于截断扩散模型,并引入强化学习约束,用于端到端自动驾驶 [3] - 环境编码部分融合了BEV特征和自车状态特征,BEV特征通过骨干网络从相机和激光雷达特征中提取并下采样,自车状态通过独立编码器处理,两者拼接后加入位置嵌入 [5][6] - 解码部分采用类似DETR的查询机制,将查询输出分割为轨迹查询和智能体查询,用于后续规划 [7] 轨迹规划模块 - 利用多尺度BEV特征进行轨迹规划,通过上采样和拼接操作融合不同层级的特征,然后进行投影变换 [8] - 规划过程以预定义的轨迹锚点为基础,锚点通过K-Means聚类从真值轨迹中获取,在训练时对锚点进行归一化、加噪和反归一化处理 [9][10][11] - 将加噪后的轨迹锚点通过正弦位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询、自车查询进行交叉注意力计算,最终预测轨迹分类分数和去噪后的轨迹偏移量 [12][13][14][15][16][17][18][19][20][21] - 最终轨迹由预测的轨迹偏移量与加噪的原始轨迹锚点相加得到,并对航向角进行限制 [22] 模态选择与轨迹生成 - 采用模态选择器从多个候选轨迹中选取最终输出 [23] - 在推理(反向去噪)阶段,对规划锚点进行归一化和加噪,然后通过多步迭代的去噪过程生成轨迹,每一步都使用扩散模型解码器预测轨迹并利用调度器进行去噪更新 [25][26][27] - 使用PDM评分器对生成的所有模态轨迹及真值轨迹进行多维度综合评估,评估维度包括安全性、舒适性、规则遵守、进度和物理可行性,并计算加权总分 [27] 强化学习优化与损失函数 - 提出锚点内GRPO方法,在每个锚点对应的轨迹组内执行组相对策略优化,通过计算组内相对优势来更新策略,避免模式崩溃 [27][28] - 对强化学习优势函数进行改进,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,同时引入时间折扣因子,降低未来时间步的奖励权重 [29][30][31][32] - 在扩散过程中创新性地使用尺度自适应的乘性噪声(纵向和横向)替代传统的加性噪声,以保持轨迹的平滑性和结构完整性,避免产生锯齿状路径 [33][35] - 总损失函数结合了强化学习损失和模仿学习损失,以防止过拟合并保持通用驾驶能力 [39] - 训练监督包含真值匹配,将最接近真值的锚点轨迹作为正样本,其余作为负样本,总损失由轨迹恢复损失和分类置信度损失两部分构成 [40][41][42][43]
业内团队负责人对Waymo基座模型的一些分析
自动驾驶之心· 2025-12-22 08:42
Waymo端到端自动驾驶新范式技术解析 - 文章核心观点:Waymo发布技术博客,阐述了其在端到端自动驾驶新范式下的核心技术架构,重点包括基于大模型的基座系统、新型安全验证与可解释性方法以及数据驱动闭环 [2] 基座大模型架构 - Waymo的自动驾驶基座模型采用快慢双系统架构 [2] - 快系统核心模块是感知,相对白盒化,对应上一代自动驾驶方案 [2][4] - 慢系统核心模块是基于Gemini的视觉语言模型,用于复杂语义推理 [2][4] - VLM输入包括驾驶员语言、传感器原始数据及历史信息,输出涵盖自车轨迹、他车行为预测和高精地图 [2] - 慢系统将自车与他车轨迹预测视为下一个词预测任务,利用Gemini大语言模型作为编码器,并采用利于强化学习的解码器 [5] - 基座模型有三个主要用途,但具体用途未在提供内容中详述 [6] 安全验证与可解释性方法 - 在端到端黑盒范式下,通过设立严格的车载验证层进行安全验证 [7] - 验证方法是将网络的显式中间结果与真实值进行对比 [7] - 对比的真实值不仅包括感知标注结果,也包含部分与仿真器生成的编码是否一致的编码结果 [7] 数据驱动飞轮 - Waymo构建了双层数据飞轮:内环是基于强化学习的仿真-验证-上车闭环;外环是基于实车测试的闭环 [8] - 车端模型、云端仿真器、评估器三者共享同一个基座模型 [11] - 车端数据挖掘仍然是新范式下的核心 [12] - 内环数据飞轮强烈依赖于基于世界模型的生成式仿真 [12] 行业技术趋势 - 端到端自动驾驶通过传感器数据直接输出规划或控制信息,是当前智能驾驶最具代表性的方向 [15] - 行业关注重点算法包括BEV感知、大语言模型、扩散模型和强化学习 [15] - 基于扩散模型的规划器和基于VLA的算法是当前重要的实战研究方向 [15]
最近Feed-forward GS的工作爆发了
自动驾驶之心· 2025-12-22 08:42
3D高斯泼溅技术在自动驾驶领域的发展与应用 - 特斯拉在ICCV的分享中引入3D高斯泼溅技术,成为一大亮点,表明其可能基于前馈式GS算法实现 [2] - 学术界近期涌现大量相关工作,例如小米的WorldSplat和清华的DGGT,显示3DGS技术正在自动驾驶领域焕发新一轮生机 [2] - 行业普遍共识是采用前馈式GS重建场景,并利用生成技术生成新视角,多家公司正开放HC招聘相关人才 [2] 3D高斯泼溅技术的快速迭代与学习需求 - 3DGS技术迭代速度极快,已从静态重建3DGS、动态重建4DGS、表面重建2DGS,发展到前馈式3DGS [4] - 初学者入门面临挑战,需同时掌握点云处理、深度学习理论以及实时渲染、代码实战等技能 [4] - 为应对学习需求,推出了《3DGS理论与算法实战教程》,旨在提供从原理到实战的完整学习路线图 [4] 课程核心内容与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间表达、渲染管线、光线追踪等,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的入门作业 [8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建等经典与最新算法,实战选用英伟达开源的3DGRUT框架 [9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,重点讲解Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战选用DriveStudio框架 [10] - **第四章:重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等方向,分析其工业界应用与学术探索价值 [11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解AnySplat和WorldSplat两篇最新算法工作 [12] - **第六章:答疑交流**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题 [13] 课程安排与面向人群 - 课程于12月1日开课,预计两个半月结课,采用离线视频教学配合VIP群及三次线上答疑的模式 [15] - 课程章节按计划解锁:第一章于12月1日,第二章于12月7日,第三章于1月7日,第四章于1月21日,第五章于2月4日 [15] - 面向具备一定计算机图形学、视觉重建、概率论与线性代数基础,并掌握Python和PyTorch的学员 [17] - 学员需自备GPU,推荐算力在4090及以上 [17] - 课程目标使学员掌握3DGS完善的理论知识、技术栈及算法开发框架,并能与学界及工业界同行交流,对实习、校招、社招均有助益 [17] 讲师背景与行业联系 - 讲师Chris拥有QS20高校硕士学位,现任某Tier1厂商算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产 [5] - 讲师参与过全球顶级主机厂的仿真引擎及工具链开发,拥有丰富的三维重建实战经验 [5] - 课程由自动驾驶之心联合工业界算法专家打造,旨在全面吃透3DGS技术栈 [4]