自动驾驶VLA
搜索文档
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 08:03
最近邀请到苹果姐和星友做了一次线上交流,分享给大家。 苹果姐 2020年从国有银行大跨度转行至自动驾驶大厂,后又入职某头部L4创业公司和头部新势力, 研究方向也多次转变:从算法评测开始,又先后从事2D交通红绿灯检测,泊车视觉感知,BEV感 知,端到端主动安全算法等。 无论是转行到自动驾驶,还是之后多次的方向转换,柱哥都学习到很多。我提炼一下有两个关键的 点: 一是机会在面前一定要抓住,付出全力: 2020年转行的时候,投的自驾公司很长时间都没有回信, 最后有一家自驾公司联系苹果姐要求一周后线上机试,苹果姐在没有准备的前提下一周内高强度刷 leetcode最终成功过了机试。也得益于20年自动驾驶扩招,苹果姐也成功转行。 二是先转行再一步步提升,找准赛道: 起初苹果姐从评测开始,虽然不是算法岗但积累了一定的 coding能力。同时借着评测的契机学习了静态感知,之后跳槽也顺利到了感知岗位,然后一步步到 BEV感知再到如今的端到端主动安全,这背后是持续的学习进步和对行业趋势的把握。 最近也有很多同学咨询柱哥方向选择的问题,所以我也是邀请到苹果姐和大家分享这个主题, 直播 回访已经上传到自动驾驶之心知识星球,欢迎大家一 ...
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 08:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 08:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-20 07:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-19 00:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-16 07:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-11 07:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 17:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 12:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]