自动驾驶VLA技术趋势 - 视觉语言动作模型及其衍生方向已成为自动驾驶公司和高校实验室的主攻方向,占据了自动驾驶前沿方向近一半的产出[1] - 推理增强VLA、强化学习及相关基准测试是当前重点研究方向[1] - VLA技术打破了传统方法的单任务局限,使自动驾驶车辆能在多样化场景中自主决策,灵活应对未见过的环境[3] - VLA方法更为直白和干净,许多方法取消了传统端到端中复杂的3D感知任务,借鉴了视觉语言模型更强大的通用泛化能力[3] - VLA技术栈尚未收敛,一系列算法如雨后春笋般冒出,导致技术栈多样且入门困难[4] 课程核心价值主张 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈[5] - 帮助学员梳理自动驾驶VLA的研究发展脉络,掌握领域核心框架,学会将论文分类、提取创新点[6] - 课程配有实战环节,完成从理论到实践的完整闭环[7] - 课程涵盖视觉感知、语言模块、动作模块,配套大模型的前沿技术如RAG/CoT/强化学习/MoE等广泛技术栈[4] - 针对学习挑战,课程提供系统化实战指导,帮助学员从零散论文中提炼框架、掌握领域发展趋势[4] 课程内容体系 - 第一章涵盖自动驾驶VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[11][12] - 第二章聚焦Vision、Language和Action三个模块的基础知识,讲解大模型与自动驾驶VLA的结合方式[13][14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等[16] - 第四章深入模块化与一体化VLA,涵盖BEV感知、动静态检测、OCC及轨迹预测等关键技术[17][18] - 第五章聚焦推理增强VLA子领域,讲解长思维链推理、记忆和交互等前沿技术[20][21] - 第六章设置大作业,基于ms-swift框架进行网络构建、自定义数据集和模型训练[23] 实战项目设计 - 第四章实战选取华科和小米最新提出的ReCogDrive,包含预训练、模仿学习训练和强化学习训练三个阶段[19] - ReCogDrive涉及技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式[19] - 第五章实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理[21] - 大作业部分提供V-L-A各部分的代码解读以及可修改优化的demo,注重学员动手实操能力[23] 师资与学术资源 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP等顶级会议发表多篇论文[24] - 讲师团队拥有丰富的自动驾驶、大模型研发和实战经验,长期维护GitHub开源项目总Star数超过2k[24] - 课程涵盖多所顶尖机构最新研究成果,包括慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世DiffVLA等[26][27] - 覆盖UC Berkeley和Waymo中稿CVPR2025的S4-Driver、华科&小米ICCV2025中稿的ORION等前沿工作[26][27] 技术能力培养目标 - 学员将掌握VLA三大子领域:作为解释器的VLM、模块化&一体化VLA及推理增强VLA[28] - 培养对视觉感知、多模态大模型、强化学习等关键前沿人工智能技术的深刻理解[28] - 达到可复现VLA主流算法的水平,适用于后续科研学习及工程落地需求[28] - 具备将所学应用到项目中,独立设计自己的VLA模型的能力[28]
VLA的论文占据自动驾驶前沿方向的主流了。。。
自动驾驶之心·2025-09-20 00:03