Workflow
VLA
icon
搜索文档
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 08:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧
理想TOP2· 2025-10-25 13:21
自动驾驶技术路线定义与共识 - VLA/世界模型/端到端等技术路线缺乏公认的排他性定义,其共同点是要求模型具备生成与真实世界一致的道路视频数据的能力,并以视觉信息为输入最终控制车辆行动 [1][2] - 技术路线之间的核心区别在于语言是否参与、参与深度以及架构形式,例如语言相关的token是当前LLM的text token还是潜在的photon token [2] - 不同企业宣传的VLA细节可能存在巨大差异,未来VLA与VLA之间的区别可能大于VLA与传统方法的区别 [2][3] 头部车企技术路线共性分析 - 头部智驾车企在自动驾驶探索上共同性大于差异性,内核是宣传分歧而非技术路线分歧 [1] - 理想汽车与特斯拉均认为扩散模型有利于自动驾驶,3D高斯泼溅生成世界模型优于神经辐射场,且世界模型用于评估很重要 [12] - 两家公司均认为将人类价值观编入代码极其困难,并且在输出层面,理想汽车认为输出轨迹优于直接输出油门方向盘电信号 [5][12] 语言在自动驾驶中的作用与潜力 - 语言在自动驾驶中的作用主要体现在长推理、用户交互价值观对齐以及理解世界 [1] - 对“预测下一个token”的理解分歧影响对LLM潜力的判断,越认为其不只是概率分布的人越认可语言可以理解世界 [1][12] - OpenAI联合创始人Ilya Sutskever认为,足够好的下一个token预测意味着模型理解了token产生的潜在现实,这使其可能推断出超越已有数据范围的高智慧行为 [13][15][17] 端到端架构的具体实现探讨 - 端到端缺乏公认的排他性定义,传感器信号进、输出轨迹亦可称为端到端,在此定义下理想汽车的VLA架构符合端到端特征 [5][7] - 有观点认为特斯拉端到端模型实际输出的是轨迹而非油门方向盘电信号,依据包括跨车型适配的冗余设计问题及特斯拉高管在公开场合的模糊回应 [5][6] - 特斯拉技术负责人Ashok Elluswamy在ICCV 2025上表示,端到端的核心前提是梯度必须端到端流动,输出形式是经验性问题,这进一步支持了端到端定义的宽泛性 [6] 技术演进的长远视角 - 马斯克提出长远来看AI模型输入和输出99%以上将是光子,这回应了关于DeepSeek-OCR等工作中降低计算量的潜力 [10] - VLA定义的最大公约数是输入为视觉或多模态,语言以某种形式参与,最终输出指向广义机器人动作的模型 [11] - 长远来看,可能不再使用text token来理解语言,而是采用更底层的表征方式 [10][11]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据
理想TOP2· 2025-10-24 12:48
理想智驾与特斯拉的技术发展关系 - 理想智驾从V10-11时期的跟随特斯拉转变为V12及以后的参考特斯拉,跟随尺度显著降低[2] - 转变的核心锚点是理想在VLM后进行了大量特斯拉未公开提及的原始创新,其VLA创新度达到DeepSeek MoE水平[2] - 理想VLM由快系统(系统一)和慢系统(系统二)组成,快系统部分可视为跟随特斯拉,但慢系统部分为理想独立创新,因为特斯拉直到ICCV 2025才提及该概念,而理想在2024年X月已发表相关论文[3] - 理想VLM到VLA的演进是基于VLM的自然发展路线,而非追随特斯拉[3] 特斯拉端到端自动驾驶技术框架 - 特斯拉转向单一、大型的端到端神经网络,直接输入像素和传感器数据,输出控制动作,不再有显式感知模块[4] - 转向端到端的原因包括:人类价值观编码困难、传统模块接口信息丢失、易于扩展处理长尾问题、实现同构计算与确定性延迟[5] - 面临三大挑战:维度灾难(30秒窗口达20亿token)、可解释性与安全保证、评估难度[6][7] - 解决方案包括:利用车队数据挖掘高价值场景、通过辅助输出(如3D占用、自然语言决策)实现可解释性、使用神经网络闭环模拟器进行评估[7][8][9][10] 理想与特斯拉技术路线的对比与创新时序 - Ashok在ICCV 2025提及的系统2自然语言应用、高斯溅射生成仿真、仿真评估等概念均为理想率先公开[13][16] - 理想在2024年1月2日发表的论文已包含3D高斯表征相关内容,早于特斯拉ICCV 2025的公开介绍[18][20] - 特斯拉架构图中明确标注系统2和LLM应用,进一步验证理想在相关技术方向的先行性[22] - Ashok此次演讲未提出突破性概念,因此不能认为特斯拉再次引领行业研究方向调整[13]
预见未来,《Al Car的初步畅想与探索实践》白皮书发布
中国汽车报网· 2025-10-23 16:15
白皮书核心发布 - 中国汽车工程学会与吉利汽车研究院在SAECCE 2025上联合发布行业首份以AI Car为主题的白皮书《Al Car的初步畅想与探索实践》[1][3] AI Car的产品定义与本质 - AI技术将颠覆智能终端开发范式,推动汽车成为具身智能体(AI Car)[3] - AI Car将扮演司机与伙伴两个核心角色[3] - AI Car的本质是由驾驶、座舱、底盘、动力等多个子智能体有机融合的超级智能体[3] 十大关键技术判断 - VLA将改变自动驾驶系统设计逻辑,成为驾驶智能体基础模型[3] - 世界模型作为对真实世界的极致压缩,将成为理解预测未来的基础工具[3] - 算力优化与数据闭环是驾驶智能体实现高效自迭代的核心抓手[4] - 超拟人交互将重塑人车关系,助力座舱智能体迈向终极形态[5] - 基于端云协同、大小协同的交互功能智能分配将成为座舱应用范式[6] - 在多端互联推动下,AI OS将加速从座舱开始落地应用[6] - 智能底盘与动力将成为精准动态控制、保障行车安全的运动控制大脑[7] - AI将赋能形成智驾+底盘更大的端到端系统,重构驾乘体验[8] - 动力电池向集实时感知、自主决策、动态响应的智能电池系统转型[9] - AI赋能下的全局最优能量策略将重塑车辆全周期能量管理范式[10] 对产业与企业的影响及建议 - AI Car产品变革将改写企业生存发展逻辑,战略目标由造好车转型为运营智能体[10] - 数据成为影响企业竞争力的核心战略资产,性能成本竞赛转为生态体系间价值网络对抗[10] - 企业突围需遵循生存三角新法则:定义智能体独特人格与价值主张以焕新品牌[10] - 资源配置需深挖全流程数据价值,打造开发至体验闭环,并搭建跨职能AI大研发团队[10][11] - 博弈逻辑要求整车企业加速构建全生态资源整合能力,提升跨终端智能协同体验以强化用户粘性[11]
特斯拉最新技术分享,FSD核心架构曝光了
36氪· 2025-10-22 16:00
特斯拉FSD技术架构曝光 - 特斯拉在ICCV会议上曝光FSD核心架构,显示其已整合为一张大型神经网络,可输入摄像头视频、导航信息、自车运动状态和声音等多模态信息[1][6] - 网络输出端包括全景分割信息、3D占用网络、3D高斯渲染、语言以及未公开信息,最终经推理输出动作[6] - 此次分享是特斯拉时隔3年后首次对外公开技术细节[4] 行业技术路线争议 - 曝光架构中输出语言信息,引发特斯拉可能采用VLA路线的猜想,行业当前存在VLA与世界模型的技术路线之争[7][10] - VLA路线代表为元戎启行和理想,认为该范式可利用互联网海量数据积累常识,并具备思维链能力进行长时序推理[7] - 世界模型路线代表为华为和蔚来,认为其更接近问题本质,在时空认知能力上比VLA具有更高带宽[10] 自动驾驶进入大模型阶段 - 曝光信息显示特斯拉FSD已步入大模型阶段,参数规模仍在扩大[10] - 行业认为更大参数模型需要更大算力支撑,今年涌现多款算力达1000TOPS甚至2000TOPS的新车[10] - 特斯拉新一代智能辅助驾驶芯片算力据称将直奔2000TOPS,模型参数将提高十倍[10] FSD最新版本功能更新 - FSD推送V14.1.3版本,包含10项更新,优化了对树枝、轮胎等细小障碍物的横向避让能力,并改善了无保护转弯、变道等场景的处理[12] - 增加个性化功能,用户可通过速度配置文件定制驾驶偏好,系统遇到特种车辆会靠边停车或让行[12] - 神经网络中添加导航和路线功能,可实时生成绕行路线以应对堵车,用户到达终点后可选择停车位置[12] - FSD重启疯狂麦克斯模式,驾驶风格激进,适用于赶飞机、接孩子等紧急场景[12][14] 中国自动驾驶发展态势 - 特斯拉不再对外技术分享后,中国玩家在VLA和世界模型方向持续进行无人区探索[17] - 中国自动驾驶算法正在告别特斯拉崇拜,国内有实力的AI玩家已不再关注马斯克的动向[17]
别造轮子了!原力灵机开源Dexbotic:迈向具身智能的一站式VLA工具箱
具身智能之心· 2025-10-22 14:02
文章核心观点 - Dexmal原力灵机推出了Dexbotic开源工具箱,旨在解决具身智能领域VLA模型开发中存在的框架碎片化、复现困难、资源门槛高等问题,通过提供统一的数据格式、模块化模型架构和高效的实验层设计,推动行业从“碎片化探索”进入“协同创新”新阶段 [1][4][7][29] Dexbotic框架概述 - Dexbotic是一个集成了主流VLA模型的通用易扩展开源工具箱,涵盖操作策略和导航策略,支持云端与本地一体化训练及全链路机器人训练部署 [1][2] - 该框架以“统一VLA架构”为核心,构建了从数据处理到模型开发再到实验落地的全链路解决方案,被类比为具身智能领域的“mmdet时刻” [7] 行业痛点与解决方案 - 当前VLA研究落地受限于碎片化问题,不同团队采用各异框架导致模型对比和复现效率低下,且多数模型无法充分利用最新LLM的强大表征能力 [1][4] - Dexbotic通过统一的模块化VLA框架解决了上述痛点,其设计贴合开发者视角,大幅降低操作门槛 [7][24] 数据层:Dexdata格式 - Dexbotic设计了Dexdata格式来实现多源数据的高效统一,该格式由“视频目录+jsonl目录”组成,大幅节省了模型训练的存储成本 [9][10] - 相较于其他框架的数据格式,Dexdata为多机器人的训练与部署提供了统一数据基础,对个人开发者非常友好 [10] 模型层:DexboticVLM - 模型层以DexboticVLM为核心基础模型,采用“视觉编码器+投影器+LLM”的经典结构,训练流程参考LLaVA [11] - 框架提供两类预训练模型:面向通用VLA策略的离散预训练模型和面向特定策略的连续预训练模型,以满足不同机器人场景需求 [11] 实验层:高效开发支持 - 实验层采用“基础脚本+参数继承”的设计思路,让算法对比、模型迭代效率提升50%以上,完全贴合开发者的实际操作习惯 [11] - 该层支持云端与本地消费级GPU的训练与推理,兼顾高校、企业等不同用户的算力需求 [11][25] 性能表现与基准测试 - 在SimplerEnv benchmark中,DB-CogACT较官方CogACT平均成功率提升18.2%,DB-OFT较官方OpenVLA-OFT提升46.2% [21][22] - 在长任务场景CALVIN benchmark中,DB-CogACT的平均任务完成长度达4.06,较官方版本提升0.81 [21][22] - 即使是已达SOTA的MemoryVLA,在Dexbotic预训练模型加持下也实现了性能提升 [21] 部署与应用支持 - Dexbotic提供全链路机器人训练与部署支持,针对UR5、Franka、ALOHA等主流机器人,已实现多项日常任务的高成功率 [27][29] - 框架采用模块化设计,将所有VLA策略统一拆分为“VLM+动作头”两部分,为算法开发人员自定义策略提供了灵活扩展空间 [15] 开源计划与社区建设 - Dexbotic已开源部分预训练模型和策略,并公布了详细的开源计划表,未来将持续扩展支持的机器人平台 [15][18][27] - 公司同时开源了硬件产品DOS-W1,采用完全开源的硬件设计和快拆结构,以软硬协同方式推进具身领域发展 [30][32]
自驾行业完整的基建,更值得毕业的同学做探索!
自动驾驶之心· 2025-10-17 08:03
自动驾驶行业现状与前景 - 自动驾驶行业技术形态开始收敛,但产品形态尚未收敛,仍有许多值得打磨之处 [1] - 行业对计算资源的投入巨大,达到万卡级别,在基建、数据闭环及云端工具链成熟度方面具有优势 [1] - 业内主流在打磨L2功能,L3法规在路上,L4还有更多悬而未决的问题 [1] - 世界模型和VLA(Vision-Language-Action)等技术路线理论部分趋于完善,但落地和用户体验提升仍有长路要走 [1] - 行业更适合硕士和博士将学术探索直接落地,因其拥有完整的基建 [1] - 真正留在行业内的主力是技术栈丰富的综合型人才,洗牌是早晚的事情 [2] 自动驾驶之心知识星球社区 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [4] - 社区目前已有超过4000名成员,期望未来2年内做到近万人规模 [4][5] - 社区汇总了40多个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界大佬作为嘉宾 [7][10] - 社区提供岗位内推机制,与多家自动驾驶公司建立了合作 [11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为等头部公司 [16] - 社区内部梳理了近40个开源项目、近60个数据集及行业主流仿真平台 [17] 社区技术资源覆盖范围 - 技术方向覆盖感知、规划控制、仿真、端到端自动驾驶、VLA、世界模型、多传感器融合、BEV感知、3D目标检测等40多个领域 [10][17][27] - 提供包括“自动驾驶100问系列”在内的实战问答,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等主题 [10] - 社区内部有原创直播课程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划等多个系列视频教程 [11] - 汇总了国内外自动驾驶与机器人高校实验室、自动驾驶公司、开源项目及开源数据集 [28][30][34][36] 行业热点与技术趋势 - 端到端自动驾驶是学术界和工业界的研究热点,社区详细梳理了一段式、二段式、量产方案及VLA相关算法 [38] - 3DGS与NeRF、自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA是当前前沿领域 [40][42][44][46] - BEV感知是当下量产的基石,扩散模型是与世界模型、大模型结合的研究热点 [50][52] - 社区内部有超过一百场专业技术直播,分享内容涵盖VLA、V2X、3D检测、大模型等最新工作 [90]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]