DriveVLM

搜索文档
给自动驾驶感知工程师的规划速成课
自动驾驶之心· 2025-08-09 00:04
自动驾驶规划技术演进 - 模块化系统中机器学习主要影响感知部分,下游规划组件变革较慢[3] - 传统系统易于解释和快速调整,但机器学习可扩展性更强[4] - 学术界和工业界推动下游模块数据驱动化,通过可微接口实现联合训练[4] - 生成式AI和多模态大模型在处理复杂机器人任务方面展现潜力[4] 规划系统核心概念 - 规划系统需生成安全、舒适、高效的行驶轨迹[11] - 输入包括静态道路结构、动态参与者、占用空间等感知数据[11] - 输出为路径点序列,典型为8秒视野内每0.4秒一个点共20个点[11] - 分为全局路径规划、行为规划和轨迹规划三个层级[12] 规划技术方法 - 搜索、采样和优化是规划三大核心工具[24] - 混合A*算法通过考虑车辆运动学改进A*算法[28] - 采样方法通过参数空间采样解决优化问题[37] - 优化分为凸优化和非凸优化,后者依赖初始解[41] 工业实践 - 路径-速度解耦方法解决约95%问题,耦合方案性能更高但实现复杂[52] - 百度Apollo EM规划器采用迭代期望最大化步骤降低计算复杂度[56] - 时空联合规划处理剩余5%复杂动态交互场景[59] - 特斯拉采用数据驱动与物理检查结合的混合系统[117] 决策系统 - 决策本质是注重交互的行为规划,处理不确定性和交互问题[68] - MDP和POMDP框架将重点从几何转向概率[69] - MPDM通过有限离散语义级策略集合简化POMDP问题[102] - 应急规划生成多条潜在轨迹应对不同未来情景[112] 神经网络应用 - 神经网络可增强规划器实时性能,实现数量级加速[130] - 端到端神经网络规划器将预测、决策和规划结合成单一网络[133] - 世界模型最终形式可能是由MCTS增强的原生多模态大模型[138] - 神经网络从树结构中提取知识,形成正反馈循环[142] 发展趋势 - 规划架构趋向"端到端",更多模块被整合到单一系统[151] - 机器学习组件在规划中应用比例持续增加[151] - 算法从理论完美向工程实用演进,如Value Iteration到MCTS[153] - 确定性场景规划成熟,随机性场景决策仍是挑战[153]
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]