UniLION
搜索文档
AI Day直播 | 如何解决特斯拉提出的端到端三大挑战?
自动驾驶之心· 2025-12-29 09:07
特斯拉端到端自动驾驶架构的核心挑战 - 特斯拉在ICCV2025分享中提出了自动驾驶面临的三大核心挑战:维度灾难、可解释性和安全保证、闭环评测 [3][6] - 行业围绕这三大难题探讨了多种可能的解决方法 [3] 相关学术研究进展 - 研究提出了UniLION模型,旨在构建统一的自动驾驶模型,采用线性组RNN [3] - 研究提出了DrivePI模型,这是一个空间感知的4D MLLM,用于统一的自动驾驶理解、感知、预测和规划 [3] - 研究提出了GenieDrive模型,致力于构建具有4D占据引导视频生成能力的物理感知驾驶世界模型 [3] 技术分享与行业探讨内容 - 分享将详解特斯拉端到端技术路线的变迁以及FSD V14的具体内容 [6][13] - 分享将针对端到端架构的三大挑战,详细解析UniLION、DrivePI、GenieDrive等解决方案 [6][13] - 分享将探讨能够理解并与物理世界互动的通用人工智能的形态 [6][13] - 行业内部存在学术与量产的分歧,以及技术路线的持续较量 [14] - 行业正在深入探讨谁在定义自动驾驶下一代方案,例如VLA与WA的对比 [14] 行业活动与知识获取 - 通过直播和知识星球“自动驾驶之心”可获取更深入的自动驾驶技术内容,包括学习路线、技术细节、QA及未公开内容 [1][2][14] - 行业举办“硬核夜话”活动,与一线量产专家深入探讨自驾数据闭环工程 [15]
华科&港大提出UniLION:基于线性组 RNN 的统一自动驾驶模型
自动驾驶之心· 2025-12-25 17:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 此外,UniLION 在广泛的核心任务中持续提供具有竞争力甚至最先进的性能,包括 3D 感知(如 3D 物体检测、3D 物体跟踪、3D 占用预测、BEV 地图分割)、预测 (如运动预测)和规划(如端到端规划)。这种统一的范式自然简化了多模态和多任务自动驾驶系统的设计,同时保持卓越的性能。最终,我们希望 UniLION 能为自 动驾驶领域的 3D 基础模型开发提供全新视角。 项目链接:https://github.com/happinesslz/UniLION 项目简介 UniLION 是一种基于线性组RNN(也可以看作为linear attention)的统一自动驾驶模型,它能够高效处理大规模 LiDAR 点云、高分辨率多视角图像和时间序列数据。 UniLION作为单一多功能架构,且无需显式的时序或多模态融合模块,便可无缝支持多种不同设置(即LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temp ...
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 08:53
文章核心观点 文章系统阐述了特斯拉FSD等端到端自动驾驶方案面临的三大核心挑战,并分别提出了三项创新性的技术解决方案,这些方案相互协同,形成了一个从高效感知决策到可解释性增强,再到物理一致评估的完整技术栈,有望推动行业向L4/L5级别自动驾驶发展 [30][31] 挑战一:维度灾难及其解决方案 - **挑战核心**:端到端自动驾驶面临维度灾难,需在输入层面高效处理海量多模态时序数据,在输出层面实现从原始感知到规划决策的真正端到端映射 [4] - **解决方案**:提出UniLION框架,这是业界首个基于线性组RNN的统一自动驾驶框架,采用类ViT范式,将多视角图像、LiDAR点云和时序信息统一转换为token序列,在3D空间进行高效融合 [4] - **架构特点**:UniLION具有统一的3D骨干网络,基于线性组RNN实现线性计算复杂度,解决了传统Transformer处理长序列时的计算效率瓶颈,能无缝处理不同模态和时序信息,无需显式融合模块 [7] - **核心组件**:UniLION Block包含四个关键设计:UniLION Layer(利用线性组RNN实现长距离特征交互)、3D空间特征描述器、体素合并与扩展、自回归体素生成,采用层次化结构提取多尺度特征 [9] - **性能表现**:在多项任务中达到卓越性能,包括检测任务75.4% NDS和73.2% mAP,跟踪任务76.5% AMOTA,地图分割73.3% mIoU,占用预测51.3% RayIoU,车辆运动预测0.57 minADE,行人运动预测0.37 minADE,规划任务碰撞率仅0.18% [11] 挑战二:可解释性与安全保障及其解决方案 - **挑战核心**:自动驾驶系统需具备可解释性以确保安全,但传统LLM缺乏精确3D空间感知能力,而基于视觉的模型缺乏可解释性和自然语言交互能力 [12] - **解决方案**:提出DrivePI框架,这是业界首个以单一LLM模型(仅0.5B参数的Qwen-2.5)实现视觉-语言-行为(VLA)和视觉-行为(VA)架构统一的框架 [13] - **架构特点**:DrivePI是一种空间感知4D多模态大语言模型,引入激光雷达作为补充传感模态以提供精确3D几何信息,生成中间的精细3D感知和预测表示,确保MLLM输出特征保持可靠的空间感知能力 [14] - **性能表现**:在文本理解方面超越OpenDriveVLA-7B模型2.5个百分点(60.7% vs 58.2%),碰撞率比ORION降低70%(从0.37%降至0.11%),3D占用性能超过FB-OCC模型10.3个RayIOU点(49.3% vs 39.0%),轨迹规划L2误差比VAD低32%(0.49m vs 0.72m) [13] - **主要贡献**:提出了首个统一的空间感知4D MLLM框架,弥合了基于视觉和基于VLA范式之间的技术鸿沟,尽管仅使用0.5B参数骨干网络,但在3D占用和占用流预测方面优于现有的基于视觉的专用模型 [17] 挑战三:系统评估及其解决方案 - **挑战核心**:自动驾驶系统评估面临人类驾驶行为不确定性与复杂交互场景多样性的挑战,传统方法难以覆盖足够的边缘场景和安全关键场景 [18] - **解决方案思路**:需要开发一个具备物理感知场景生成能力、长时序预测能力和高度可控性的自动驾驶世界模型 [20] - **具体解决方案**:提出GenieDrive,这是业界首个采用4D占据表征作为中间状态的自动驾驶世界模型,采用“先生成4D占据、再生成视频”的两阶段框架,能生成长达20秒的多视角高质量视频序列 [21] - **架构特点**:GenieDrive是一种以4D Occupancy作为中间表示的自动驾驶世界模型框架,通过Tri-plane VAE高效压缩技术,仅使用现有方法58%的潜在表示数量实现SOTA的占据重建性能,大幅降低计算和存储需求 [22] - **性能表现**:在4D占据预测任务上将mIoU提高了7.2%(相比I²-World),在视频生成质量评估中将FVD指标降低了20.7% [21] - **主要贡献**:开创了“先生成4D占据、再生成视频”的全新研究路径,在仅使用3.47M参数的情况下实现了41 FPS的实时推理速度,支持长时序视频生成和场景编辑功能,为自动驾驶系统的闭环评测、难例生成和安全验证提供了强大技术支持 [27] 技术协同与生态系统 - **技术闭环**:三项技术创新形成了一个相互赋能的完整技术生态系统:UniLION提供高效的感知和决策基础,并为DrivePI提供强大的视觉编码能力;DrivePI增强了系统的可解释性和人机交互能力,同时为GenieDrive提供控制输入条件;GenieDrive则为整个系统提供可靠的评估和验证环境,并通过生成合成数据反哺UniLION和DrivePI的训练过程 [31] - **整体意义**:通过这种系统性方法,构建了一个从感知到决策再到评估的完整闭环自动驾驶技术栈,每个环节都实现了显著的性能突破,为未来更安全、更可靠、更高效的自动驾驶系统开发铺平了道路,有望加速整个行业向L4/L5级别自动驾驶的跨越式发展 [31]