《端到端与VLA自动驾驶小班课》 - 财报，业绩电话会，研报，新闻

《端到端与VLA自动驾驶小班课》

搜索文档

自动驾驶之心· 2026-01-12 11:15

行业技术趋势与共识 - 行业共识认为2026年将是自动驾驶领域“结硬寨，打呆仗”的一年，算法层面短期内看不到重大变革，技术重点转向对端到端、视觉语言动作模型等前沿技术的量产优化[1] - 技术发展方向明确，当前阶段需要攻克工程化应用的“硬骨头”，因此行业人力招聘重点倾向于有经验的算法工程师，并开放了大量职位[1] - 端到端和视觉语言动作模型技术方向的关键词包括：BEV感知、大模型、扩散模型、强化学习[1] 核心课程内容与结构 - 课程第一章概述端到端自动驾驶，涵盖其发展历史、从模块化到端到端的演进原因，并分析一段式、二段式及视觉语言动作模型范式的优缺点与适用场景[6] - 课程第二章重点讲解端到端技术涉及的背景知识，包括视觉语言动作模型所需的大语言模型、扩散模型及强化学习，以及一段式端到端涉及的BEV感知，这些内容被认为是未来两年求职面试的高频技术关键词[6][7] - 课程第三章聚焦二段式端到端，解析其定义与出现原因，并讲解领域内的经典算法与前沿进展[7] - 课程第四章为核心精华部分，深入讲解一段式端到端的多个子领域，包括基于感知、世界模型、扩散模型以及当前最热的基于视觉语言动作模型的方法[8] - 课程第五章设置大作业，以基于人类反馈的强化学习微调进行实战，该技术可迁移至视觉语言动作模型相关算法中，具有良好延展性[9] 关键技术模块详解 - 课程详细讲解Transformer基础及其在视觉领域的应用，并涵盖为多模态大模型奠定基础的CLIP和LLaVA模型[11] - 深入介绍BEV感知基础知识，解释其如何应用于自动驾驶核心感知任务[11] - 讲解扩散模型理论及其在输出多模轨迹预测中的应用，这是当前学术界与工业界尝试落地的热点[11] - 介绍视觉大语言模型相关的强化学习技术，包括基于人类反馈的强化学习及其在视觉大语言模型训练中的作用[11] - 基于世界模型的方法被重点介绍，因其应用广泛，不仅可用于场景生成、端到端驾驶，还可用于闭环仿真，是近两年的热门技术方向[12] - 基于扩散模型的端到端方法自2023年下半年兴起，其与基于模型的方法或视觉语言动作模型结合，可更好地适应环境不确定性，课程配套相关实战讲解[12] - 基于视觉语言动作模型的端到端方法被视为当前该领域的“皇冠”，上限高、难度大，行业招聘需求旺盛，课程选取了业界代表性工作并设置实战环节[12] 课程目标与受众要求 - 课程旨在推动端到端技术在工业界的落地，帮助学员真正理解端到端自动驾驶[10] - 期望学员学完后能达到具备约1年经验的端到端自动驾驶算法工程师水平，掌握涵盖多种方法的技术框架，并对关键技术有深刻理解[15] - 学员需自备GPU，推荐算力在RTX 4090及以上，并需具备一定的自动驾驶领域基础、相关技术概念知识以及编程与数学基础[13]