DriveVLM
搜索文档
最近做 VLA 的一些心得体会
自动驾驶之心· 2025-12-11 08:05
视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点:视觉语言模型在自动驾驶领域展现出潜力,尤其在可解释性方面具有优势,但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战,行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见,其根源在于静态感知,解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D,解决方案是在训练时加入空间定位任务,例如混合具身数据,研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈,可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看,VLA方案与基于Diffusion的方案效果不相上下,VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习,在强化学习阶段,多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征,具体方式是在VLM基础上增加其他任务头,如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等,这种方式有助于实现缩放定律[3] - 思维链技术很重要,但在海量数据下应用不易,除了纯文本形式,多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足,限制了其作为基础模型的效果,改善思路是增强视觉-语言交互,例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层,或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要,无论是VLM直接以文本输出、输出特殊token映射为轨迹,还是接扩散头生成轨迹,效果都不错,工业界主要采用扩散头生成轨迹,因其速度最快[3] - 评估面临挑战,闭环测试指标比开环差,原因包括训练目标与在线部署目标不一致,以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链?研究指出,仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升,例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果,例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括:思维链质量不高、因果关系不强;测试集不够复杂;以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-10-31 08:06
技术发展趋势 - 视觉语言模型和世界模型正逐渐走向融合统一,VLA+WM结合是通往更强通用具身智能的答案[3][4] - 学术界对VLA和WM融合已进行多项探索,典型工作包括VLA-RFT、WorldVLA、Unified Vision-Language-Action Model和DriveVLA-W0[4] - 未来L4训练链路需要视觉语言模型、强化学习和世界模型三者结合,缺一不可[5] 行业技术路线 - 业内关于视觉语言模型和世界模型的争论更多是宣传口径不同,大的技术路线上多有参考[7] - 特斯拉在ICCV上的分享对国内行业具有参考意义,未来VLA+WA结合形式尚未定论,值得持续探索[7] - 行业技术发展呈现多元化趋势,涵盖端到端自动驾驶、多模态大模型、世界模型等多个前沿方向[12] 自动驾驶技术社区 - 自动驾驶之心知识星球已发展成为超过4000人的综合类自驾社区,集视频、图文、学习路线、问答、求职交流为一体[10] - 社区联合学术界和工业界大佬共同打造,目标未来2年内做到近万人规模[10] - 社区成员来自国内外知名高校和头部公司,包括上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等企业[23] 技术资源覆盖 - 社区梳理近40+技术路线,涵盖感知、规划控制、仿真、端到端等多个方向[12][24] - 资源包括近40+开源项目、近60+自动驾驶数据集及行业主流仿真平台[24] - 技术内容覆盖BEV感知、3D目标检测、多传感器融合、Occupancy网络等核心领域[24][58][59][61][65] 行业交流平台 - 社区不定期邀请一线学术界和工业界大佬畅聊技术趋势,已举办超过100场专业技术直播[95] - 建立与多家自动驾驶公司的内推机制,提供岗位内推服务[19] - 平台提供学术界和工业界研究热点梳理,包括端到端自动驾驶、3DGS与NeRF、世界模型等前沿领域[44][46][49]
理想自动驾驶团队GitHuB仓库与论文合集
理想TOP2· 2025-10-17 21:44
自动驾驶技术战略布局 - 公司自动驾驶团队致力于通过前沿技术引领交通运输领域变革,核心使命是提升出行安全性、效率和可持续性 [1] - 技术布局涵盖自动驾驶大语言模型、世界模型、3D几何场景理解以及端到端神经网络模型等多个前沿领域 [1] 大语言模型 (LLM) 应用 - 利用大语言模型解读复杂驾驶场景,旨在实现更智能、响应更迅速的自动驾驶车辆 [2] 自动驾驶模拟与测试 - 世界模型项目专注于模拟真实驾驶环境,用于在各种条件下测试和改进自动驾驶算法 [3] - DrivingSphere框架结合4D世界建模和视频生成技术,构建生成式闭环仿真系统,可生成无限大的城市规模静态背景 [8] - DriveDreamer4D使用视频生成模型作为数据机器,生成车辆执行复杂新轨迹时的视频数据,以补充真实数据不足 [8] 3D场景感知与重建 - 3D几何场景项目专注于创建精细城市环境3D地图,以增强车辆感知系统,实现更优导航和决策 [4] - StreetGaussians方法高效创建逼真、动态的城市街道模型 [7] - 3DRealCar是真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的RGB-D视图 [8] - Hierarchy UGP使用统一高斯基元的四维空间表示方法构建分层树状结构,用于大规模动态城市场景的高保真三维重建 [8] 端到端神经网络模型 - 研发全面的端到端神经网络模型,简化从感知到执行的整个自动驾驶系统处理流程 [5] - STR2运动规划器使用视觉Transformer作为编码器,采用单阶段自监督学习方式训练,旨在提升泛化能力 [8] - GaussianAD使用稀疏而全面的3D高斯函数表示场景信息,解决传统方法在信息完整性和计算效率间的权衡问题 [8] 视频生成与场景合成 - DiVE模型基于Diffusion Transformer架构,生成与鸟瞰图布局精确匹配的时间、多视角一致视频 [8] - GeoDrive利用3D几何信息生成高度逼真、时空一致的驾驶场景视频,实现实时场景编辑 [10] - StreetCrafter是专为街景合成设计的视频扩散模型,利用激光雷达数据实现摄像机位置的精确控制 [8] 视觉语言模型优化 - LightVLA是自适应视觉token pruning框架,同时提升机器人VLA模型任务成功率和运行效率 [10] 数据集与算法创新 - TOP3Cap是用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述 [7] - ReconDreamer采用渐进式策略,将世界模型知识融合到场景重建中 [8] - DriveVLM采用端到端与视觉语言模型结合的双系统架构 [7]
快速结构化深度了解理想AI/自动驾驶/VLA手册
理想TOP2· 2025-10-10 19:19
公司战略转型与愿景 - 创办理想汽车的动机是寻求比汽车之家大十倍以上的行业机会,基于对自动驾驶实现的信念和行业变革期的判断[1] - 公司于2022年9月内部明确、2023年1月28日通过全员信正式将自身定义为人工智能公司[2] - 公司核心驱动力是参与OpenAI定义的AI五阶段发展,最终目标是AI超越人类组织能力,自动驾驶成为中短期重点,中长期业务可能变化[1] 关键战略判断 - 坚信人工智能将实现知识、认知和能力的平权,AI对公司的意义是全部[2] - 判断基座模型是人工智能时代的操作系统+编程语言,是新一代入口,无论多难公司一定要做[2] - 当前所有行动都是为了获得AGI的L3和自动驾驶L4的门票[2] - 判断大语言模型与自动驾驶将合二为一变为VLA,公司必须保证其大语言模型基座模型是中国前三[3] - 目标三年内推出摘掉方向盘的车,需要VLA基座模型、顶级人才和足够算力支持[3] 技术发展路径与里程碑 - 2024年3月GTC大会分享双系统架构,输入传感器信息输出轨迹,算力储备为1.4eFlops[3] - 2024年6月李想定义L3为有监督自动驾驶、L4为无监督自动驾驶,给出三季度内测、1000万Clips最早2024年底最晚2025年初全量推送预期,L4三年内一定实现[3] - 2025年3月GTC分享VLA,明确VLM由端到端+VLM两个模型组成,VLA是一个模型具备快慢思考能力,输出action token[4] - VLA快慢思考均输出action token,通过diffusion进一步优化轨迹,用户可直接与模型对话下达指令[4] VLA基座模型核心技术 - 从零开始设计训练适合VLA的基座模型,因开源模型缺乏良好3D空间理解能力[6] - 采用MoE架构和Sparse Attention实现稀疏化,在参数量扩容时不大幅增加推理负担[7] - 训练中加入大量3D数据和自动驾驶图文数据,减少文史类数据比例,并加入未来帧预测和稠密深度预测等任务[7][8] - 训练模型学习人类思考过程并自主切换快慢思考,快思考直接输出action token,慢思考经过固定简短CoT模板输出action token[8] - 采用小词表和投机推理提升CoT效率,对action token创新使用并行解码[8] 轨迹生成与系统优化 - 利用diffusion将action token解码成最终驾驶轨迹,预测自车及他车行人轨迹,提升复杂交通博弈能力[10] - 使用多层Dit实现“开快点”等指令功能,采用ode采样器使diffusion在2~3步内生成稳定轨迹,解决效率问题[10] - 通过端到端可训VLA模型和3D重建联合优化解决强化学习两大限制,让系统超越人类驾驶水平[11] - 3D高斯具备出色多尺度3D几何表达能力和丰富语义,通过图片RGB自监督训练充分利用真实数据[5] 技术研发与论文成果 - 2024年2月提出DriveVLM,2024年6月提出Delphi端到端自动驾驶视频生成方法[11][12] - 2024年10月提出MVGS实现最先进渲染性能,提出首个基于Dit的生成长时间高一致性视频框架[12] - 2024年12月提出GaussianAD,探索以视觉为中心的端到端自动驾驶显式稀疏点架构[13] - 2025年4月发布MCAF多模态粗到细注意力聚焦框架,解决长视频理解关键瓶颈[13] - 2025年6月发布DriveAction基准测试集,包含2610个驾驶场景中生成的16185对问答数据[13]
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 大型基础模型(LFMs)为自动驾驶轨迹预测带来了范式转变,从传统的信号级预测转向语义级推理,通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势:强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力,显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著,该技术在实际应用中仍面临计算延迟高(自回归解码延迟常超过100毫秒,难以满足车辆控制周期低于50毫秒的严格要求)、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法,到深度学习方法,再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法(如卡尔曼滤波器、高斯过程)计算高效但难以处理复杂交互场景,深度学习方法(端到端架构)能自动提取时空特征并生成多模态概率输出,但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色,但训练过程复杂且不稳定,存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**:通过提示工程将轨迹数据编码为结构化文本(如“自车速度:12m/s”),或利用轨迹离散化技术(如VQ-VAE)将连续轨迹映射为离散符号序列,使LLM能够理解运动行为 [12] - **多模态融合**:设计共享的场景编码器(如BEV编码器)将图像、LiDAR点云和地图信息映射为统一表示,再与语言指令进行交叉注意力融合,典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**:利用LLM的常识知识,通过链式思维提示和规则注入(如交通规则)使轨迹生成过程透明且合规,例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**:行人预测广泛使用ETH/UCY数据集,车辆轨迹预测则以Waymo Open Motion Dataset(WOMD)、nuScenes和Argoverse为主流基准,新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**:车辆轨迹预测主要关注L2距离(预测终点与真实终点的欧氏距离)和碰撞率,行人预测则主要使用minADE和minFDE(计算K=20个预测值中的最佳结果) [17] - **性能对比**:基于LLM的方法在关键指标上显著优于传统深度学习方法,例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%,而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术(如非自回归解码)以满足实时控制需求,解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究,使轨迹预测建立在因果机制之上,而不仅仅是关联模式 [21]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
给自动驾驶感知工程师的规划速成课
自动驾驶之心· 2025-08-09 00:04
自动驾驶规划技术演进 - 模块化系统中机器学习主要影响感知部分,下游规划组件变革较慢[3] - 传统系统易于解释和快速调整,但机器学习可扩展性更强[4] - 学术界和工业界推动下游模块数据驱动化,通过可微接口实现联合训练[4] - 生成式AI和多模态大模型在处理复杂机器人任务方面展现潜力[4] 规划系统核心概念 - 规划系统需生成安全、舒适、高效的行驶轨迹[11] - 输入包括静态道路结构、动态参与者、占用空间等感知数据[11] - 输出为路径点序列,典型为8秒视野内每0.4秒一个点共20个点[11] - 分为全局路径规划、行为规划和轨迹规划三个层级[12] 规划技术方法 - 搜索、采样和优化是规划三大核心工具[24] - 混合A*算法通过考虑车辆运动学改进A*算法[28] - 采样方法通过参数空间采样解决优化问题[37] - 优化分为凸优化和非凸优化,后者依赖初始解[41] 工业实践 - 路径-速度解耦方法解决约95%问题,耦合方案性能更高但实现复杂[52] - 百度Apollo EM规划器采用迭代期望最大化步骤降低计算复杂度[56] - 时空联合规划处理剩余5%复杂动态交互场景[59] - 特斯拉采用数据驱动与物理检查结合的混合系统[117] 决策系统 - 决策本质是注重交互的行为规划,处理不确定性和交互问题[68] - MDP和POMDP框架将重点从几何转向概率[69] - MPDM通过有限离散语义级策略集合简化POMDP问题[102] - 应急规划生成多条潜在轨迹应对不同未来情景[112] 神经网络应用 - 神经网络可增强规划器实时性能,实现数量级加速[130] - 端到端神经网络规划器将预测、决策和规划结合成单一网络[133] - 世界模型最终形式可能是由MCTS增强的原生多模态大模型[138] - 神经网络从树结构中提取知识,形成正反馈循环[142] 发展趋势 - 规划架构趋向"端到端",更多模块被整合到单一系统[151] - 机器学习组件在规划中应用比例持续增加[151] - 算法从理论完美向工程实用演进,如Value Iteration到MCTS[153] - 确定性场景规划成熟,随机性场景决策仍是挑战[153]
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]