Workflow
端到端自动驾驶
icon
搜索文档
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-13 07:33
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在一段式和两段式两种主要范式,一段式代表为UniAD,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2024年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法 [3] 主流企业技术布局 - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研量产 [3] - 端到端与VLA技术栈涉及BEV感知、视觉语言模型、扩散模型、强化学习等核心内容,是学术界和工业界最前沿的技术方向 [5] 端到端技术核心内容 - 二段式端到端领域涌现出经典算法PLUTO、CVPR'25的CarPlanner以及最新工作Plan-R1等优秀成果 [10] - 一段式端到端子领域包括基于感知的UniAD、基于世界模型的Drive-OccWorld与OccLLaMA、基于扩散模型的DiffusionDrive与DiffE2E,以及基于VLA的ORION与OpenDriveVLA [12][14] - 基于VLA的端到端方法被视为目前端到端自动驾驶的皇冠,上限高且业内招聘需求旺盛,是业界预研的新一代量产方案 [14] 关键技术发展动态 - 扩散模型思想自2024年下半年被引入多模轨迹预测,相比单模轨迹能更好适应自动驾驶不确定环境,并可与其他方法结合实现VLA [14] - 世界模型应用广泛,不仅可用于场景生成、端到端,还可用于闭环仿真,是近两年非常热的技术方向 [14] - VLA技术融合了VLM、BEV、扩散模型、强化学习等多种技术,是端到端发展的前沿 [14]
工业界和学术界大佬带队!彻底搞定端到端与VLA
自动驾驶之心· 2025-10-10 07:32
端到端自动驾驶算法趋势 - 端到端算法已成为自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及视觉语言模型(VLA)等多种子领域,尤其基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 核心技术与课程定位 - 从模块化算法到端到端再到VLA,核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等,掌握这些技术可把握学术界和工业界最前沿方向 [3] - 行业推出《端到端与VLA自动驾驶小班课》与《自动驾驶VLA和大模型实战课程》,旨在帮助从业者快速高效入门 [3] - 《自动驾驶VLA与大模型实战课程》由学术界专家带队,聚焦VLA领域,涵盖从VLM作为自动驾驶解释器到模块化VLA、一体化VLA及推理增强VLA的三大领域 [3] - 课程配套理论基础梳理与大作业章节,指导学员从零搭建自己的VLA模型及数据集 [3] - 《端到端与VLA自动驾驶课程》由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式重点算法,详解BEV感知、大语言模型、扩散模型和强化学习 [10] - 工业界课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [10] 师资力量与学员要求 - 课程讲师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [7][9] - 讲师团队具备丰富的自动驾驶、大模型研发和实战经验,并主持完成多项算法预研、框架工具及产品量产交付 [7][9][10] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念的学员,要求自备算力在4090及以上的GPU,并具备Python和PyTorch语言基础 [13]
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-09 07:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]
纵向端到端是自动驾驶技术的一道分水岭
自动驾驶之心· 2025-10-04 12:04
行业技术发展现状 - 端到端技术已成为自动驾驶行业普遍宣称但实际实现程度参差不齐的技术方向 [2] - VLA和世界模型成为行业新的热门词汇和竞相追逐的焦点 [2] - 横向端到端(模型驱动的横向规划)已被多家头部智驾团队实现 [3] - 纵向端到端仍是自动驾驶技术的一道分水岭,真正实现的系统极少 [3] 纵向端到端的必要性 - 单纯依赖规则或优化方法难以保证纵向控制的拟人丝滑 [3] - 老司机与新司机的关键区别在于对减速的控制能力 [3] - 防御性驾驶的核心是合理的纵向决策控制加减速 [4] - 真正的防御性减速需要根据必要性在安全和效率间进行权衡取舍 [4] 纵向端到端技术难点 - 纵向控制目标与沿着导航路径高效通行的核心目标存在矛盾 [15] - 人类纵向驾驶数据相比横向数据更为"嘈杂",速度控制存在随机波动 [16] - 模仿学习难以区分有意识的纵向控速和无意义的降速波动 [16] - 横向控制与导航目标正交,而纵向控制与效率目标直接冲突 [15] 技术解决方案方向 - 需要大量数据清洗减少纵向数据噪声对模型训练的影响 [17] - 引入语言因果逻辑推理筛选有逻辑的加减速操作 [17] - 结合强化学习避免模仿学习假设人类数据永远是最优策略的局限 [17] 实际场景表现对比 - 在路口盲区场景中,FSD在自车未探出路口前就将速度降至11km/h,而其他系统在车头明显探出后才减速至12km/h [6][8] - 窄路会车场景中,FSD主动减速靠右让行,通过对向车后立即加速,而其他系统选择继续前行导致双方车辆都降至极低车速 [10][11] - FSD的纵向控制能够实现根据盲区消失及时恢复速度,完全符合人类驾驶预期 [8][14]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-30 07:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-28 07:33
文章核心观点 - 提出ReflectDrive新型学习框架,通过离散扩散的反思机制实现安全轨迹生成,解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成,集成反思机制实现无梯度安全引导再生,在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本,通过微调预训练扩散语言模型用于规划任务,结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - **离散化表示**:对二维驾驶空间进行离散化处理,将连续路径点映射为离散令牌对,实现鸟瞰图空间中高效搜索可行解 [15] - **反思推理机制**:包含目标条件轨迹生成与安全引导再生两个阶段,通过评分函数引导实现迭代自校正,无需梯度计算 [20][22][25] - **安全锚点搜索**:对于不安全路径点,在曼哈顿邻域内进行局部搜索确定更优令牌对,作为轨迹修复的安全锚点 [26][27] 性能评估结果 - **基准测试表现**:在NAVSIM基准测试中,ReflectDrive的PDMS综合评分达91.1,使用真值智能体信息时提升至94.7,接近人类水平的94.8 [35][38] - **安全指标提升**:与无反思推理版本相比,DAC提升3.9个百分点至99.3,TTC提升1.3个百分点至93.5,NC提升0.8个百分点至97.7 [37] - **进度优化效果**:EP指标提升7.9个百分点至86.9,使用真值智能体时进一步提升至88.9,超过人类水平的87.5 [37][38] 技术优势特点 - **多模态行为建模**:通过目标条件生成捕捉多样驾驶行为,支持在交叉口选择不同转向方向等大规模调整 [23][24] - **实时性能优化**:局部搜索在小型离散邻域进行,大多数安全违规可在1-3次反思迭代内解决,推理开销可控 [31] - **修复能力强化**:利用离散扩散模型的修复能力,以安全锚点为条件对轨迹片段再生,保持全局连贯性 [11][26] 应用前景展望 - **可扩展架构**:离散令牌结构支持并行解码和双向特征融合,实现可扩展训练,为自动驾驶系统提供可靠解决方案 [3][19] - **实际部署潜力**:实验表明通过更准确的检测与预测结果,系统性能可进一步提升,有望全面超越人类驾驶性能 [38][44]
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-27 00:03
端到端自动驾驶技术格局 - 当前行业与学术界中90%以上采用分段式端到端方案,纯粹的视觉-语言-动作模型和世界模型非常罕见 [2] - 视觉-语言-动作模型代表包括高德地图模型、地平线SENNA模型和加州大学洛杉矶分校AutoVLA [2] - 世界模型代表包括上海AI实验室GenAD、中科慧拓GenAD、华为与浙江大学Drive-OccWorld以及理想汽车World4Drive [2] 性能测试方法与数据集 - 性能测试主要分为两类:在模拟器中使用合成数据进行闭环测试,以及在真实采集数据上进行开环测试 [4] - 开环测试无法获得预测指令执行后的反馈,常用评估指标为3秒内平均L2距离和3秒内平均碰撞率 [4] - 闭环仿真测试主要基于CARLA、nuPlan和NAVSIM平台,其中NAVSIM数据集来自nuPlan [4] - 常用数据集规模:nuScenes为5.5小时,Waymo为11小时,Argoverse2为4.2小时,nuPlan为120小时,而合成数据规模理论上无限 [3] 主要模型性能对比 - 基于nuScenes数据集的开环测试是当前最常见评估方式 [5] - 视觉-语言-动作模型阵营性能表现优于世界模型阵营,例如地平线SENNA模型在加入自车状态后L2平均距离为0.22米,3秒平均碰撞率为0.08% [5][6] - 世界模型相关论文多集中于2024年初,近期研究更多集中于生成长尾训练视频 [6] - 华为与浙江大学Drive-OccWorld在不同评估协议下表现差异显著,采用TemAvg协议时L2平均距离为0.47米,碰撞率为0.11% [5] 上海AI实验室GenAD模型 - 模型最大特色是训练数据完全来自互联网,绝大部分来自YouTube,无需任何标注 [7] - 公司认为使用标注数据的监督学习难以具备强泛化能力,主张采用海量无标注在线驾驶视频 [8][19] - 模型采用两级训练,基于扩散模型和Transformer,但需添加基于高精度地图和交通规则的任务头,因此不能算纯粹的世界模型 [26] 华为与浙江大学Drive-OccWorld模型 - 模型框架包含历史编码器、具有语义和运动条件归一化的记忆队列、世界解码器三个组件 [32] - 世界模型输出两个任务头:基于动作可控的占据栅格网络生成和基于占据的轨迹预测 [28] - 模型采用混合密度网络结合高斯混合模型,在输出部分引入不确定性,更接近强化学习范式 [30] - 端到端轨迹规划借鉴ST-P3的代价函数聚合图 [36] 理想汽车World4Drive模型 - 框架包含驾驶世界编码模块和规划模块,其中编码模块包括意图编码器和物理潜在编码器 [37] - 意图编码器对轨迹词典中的轨迹按终点进行K-means聚类得到意图点,结合正弦位置编码获得意图查询 [37] - 采用IDEA的Grounded SAM算法获得基于深度的语义分割图,该过程需要大量3D标注数据 [39] - 通过交叉注意力机制引入场景上下文信息,并通过多层感知机输出多模态轨迹 [41] 技术路线对比与部署考量 - 视觉-语言-动作模型技术成熟度远高于世界模型,且架构更加简洁 [43] - 世界模型经过传统融合激光雷达的感知算法增强后性能提升,但丧失了无需标注数据和泛化能力强的优点 [43] - 通常世界模型参数量在10亿以下,部署成本相对较低,但加入扩散模型后运算和存储资源消耗显著增加 [43]
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 15:50
端到端自动驾驶技术演进 - 端到端自动驾驶算法直接从原始传感器数据学习控制信号,绕过模块化设计复杂性,减少感知误差累积,提升系统一致性与鲁棒性 [4][12] - 早期方法依赖自车查询回归单模态轨迹,在复杂场景中易因行为多模态性导致预测失效 [6][12] - 多模态建模策略通过生成多个轨迹提案提升决策覆盖率,但固定轨迹集离散化限制模型表达灵活性 [6][13] 扩散模型在轨迹规划中的应用 - 扩散模型具备强大生成能力与自适应能力,适合多模态轨迹规划,能从高维联合分布采样并建模连续控制空间 [7][13] - 模型天然支持条件分布建模,可整合轨迹历史、地图语义、自车目标等上下文输入,提升策略一致性与情境相关性 [7][13] - 测试阶段可通过可控采样加入额外约束,无需重新训练模型 [7][13] AnchDrive框架核心创新 - 采用截断扩散策略,从混合轨迹锚点集初始化扩散过程,显著减少去噪步骤,降低计算成本与延迟 [8][15][29] - 动态锚点由多头部解码器实时生成,处理BEV场景表征、目标特征、地图特征和VLM指令四类输入,捕捉局部环境行为多样性 [27][29] - 静态锚点集从大规模人类驾驶数据预采样,提供跨场景行为先验知识,增强模型泛化能力 [8][28][29] 混合感知架构设计 - 密集感知分支构建128×128网格BEV特征图,覆盖64×64米区域,提供场景纹理与空间关系的隐式引导 [22][23] - 稀疏感知分支执行3D目标检测和在线高精地图矢量化,输出带属性边界框及矢量化地图元素,通过MLP编码生成目标与地图嵌入 [23] - 双分支协同融合隐式模式与显式几何约束,为规划提供全面可靠的环境理解基础 [21][23] 性能表现与基准对比 - 在NAVSIM v2基准测试中EPDMS达到85.5分,显著优于主流方法:较VADv2提升8.9分,较Hydra-MDP提升5.7分,较Hydra-MDP++提升4.1分 [9][15][34] - 轨迹锚点数量从VADv2的8192个大幅缩减至20个,减少比例达400倍 [34] - 在所有子分数指标上均优于DiffusionDrive基准方法,EPDMS分数提升1.2分 [34] 消融实验关键发现 - 动态锚点生成器中:BEV特征轨迹头使EPDMS提升0.5分;目标特征轨迹头显著提高无责任碰撞(NC)分数;地图特征轨迹头提升可行驶区域合规性(DAC)和行驶方向合规性(DDC)指标 [36] - 整合VLM指令后EPDMS达到最终85.5分 [36] - 2步去噪步骤在规划性能与计算效率间取得最佳平衡,更多步骤不保证性能提升且增加推理延迟 [36] 技术实现细节 - 实验基于NAVSIM数据集,标注频率2Hz,提供8摄像头360度视野和5传感器融合LiDAR点云数据 [32] - EPDMS评价指标整合乘法惩罚分数(无责任碰撞、可行驶区域合规性、行驶方向合规性、交通信号灯合规性)和加权平均分数(碰撞时间、自车进度、历史舒适性、车道保持、扩展舒适性) [32] - 模型完全端到端学习,未依赖任何手工后处理步骤 [34]
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-26 07:33
文章核心观点 - 提出了一种名为OmniScene的全新类人框架,旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题,通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征以实现语义监督,并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明,OmniScene在所有任务中均实现了更优性能,特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型,这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略,以解决多模态融合过程中模态贡献不平衡的问题,该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示,通过学生端OmniVLM模块生成文本标注,并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集,有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块,通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系,并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块,以每个实例的几何先验为引导,自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块,将文本语义信息整合到每个三维实例特征中,实现上下文感知推理 [60][65] - 引入深度优化模块,利用增强实例特征与来自环视图像的辅助深度线索,对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中,所提模型的nuScenes检测得分达到0.526,平均平移误差最低为0.555米 [96] - 在跟踪任务上,平均多目标跟踪精度为1.235,召回率为0.528,身份切换次数仅为503次,显著优于所有现有基线模型 [98][99] - 在预测任务中,最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米,遗漏率最低为0.128 [100][101] - 在规划任务中,轨迹L2误差平均值最低为0.58米,在所有预测时域下均表现领先 [102] - 在视觉问答任务中,OmniVLM 7B模型的CIDEr得分为87.39,比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势,为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明,OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌,总处理时间在113毫秒到139毫秒之间,满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛,相关岗位薪资范围在40-70K之间,反映了该技术方向的市场价值和发展潜力 [9]