视觉大语言模型(VLM)

搜索文档
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-25 07:32
端到端与VLA自动驾驶技术发展 - 端到端自动驾驶技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多个领域技术栈 [32] - 技术发展从模块化方法演进至端到端范式 包括一段式、二段式和VLA范式 [36] - VLA(视觉语言动作)成为当前端到端自动驾驶的皇冠技术 上限高且业内招聘需求旺盛 [46] Transformer与大语言模型基础 - Transformer架构核心是注意力机制和多头注意力 通过基础模块堆叠形成Encoder和Decoder [11][13] - Token化采用BPE、Word-Piece等方法 通过合并高频字符实现压缩 [9][13] - 位置编码使用正弦和余弦函数 使模型记住词序且位置偏移量与当前位置呈线性关系 [9][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的广为认知的技术 为多模态大模型奠定基础 [18] - 视觉Transformer扩展了Transformer的基本概念 成为多模态模型重要组成部分 [43] - LLAVA等模型进一步推进了视觉语言模型的发展 [43] 课程内容体系设计 - 第一章介绍端到端算法发展历史、范式优缺点及学术界工业界动态 [36] - 第二章重点讲解大语言模型、BEV感知、扩散模型、强化学习等背景知识 [37][43] - 第三章分析二段式端到端 涵盖经典算法PLUTO、CVPR'25的CarPlanner和最新Plan-R1 [38] - 第四章深入一段式端到端子领域:基于感知的UniAD、基于世界模型的Drive-OccWorld、基于扩散模型的DiffusionDrive及基于VLA的ORION [39][41][44][46] - 第五章设置RLHF微调大作业 实现从理论到实践的完整闭环 [48] 技术人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K-15薪 要求3-5年经验硕士学历 [29] - VLA/VLM/LLM算法工程师薪资40-70K-15薪 不限经验但要求深度学习机器学习背景 [29] - VIA模型量化部署工程师薪资40-60K-15薪 要求1-3年经验及模型加速技能 [29] 课程特色与优势 - 采用Just-in-Time Learning理念 通过通俗语言和案例快速掌握核心技术栈 [33] - 帮助学员梳理研究发展脉络 形成自己的研究体系和工作经验 [34] - 配备实战环节包括Diffusion Planner和ORION开源推理评测模块 [44][46] - 学员结课后可达1年左右端到端自动驾驶算法工程师水平 [53] 讲师资质与课程安排 - 讲师Jason为C9本科+QS50 PHD 发表CCF-A论文2篇 现任TOP主机厂算法专家 [24][49] - 课程8月15日开课 预计三个月结课 采用离线视频教学+vip群答疑模式 [52] - 章节解锁时间安排:第一章8月01日、第二章8月15日、第三章8月30日、第四章9月15日、第五章10月30日 [53]