Workflow
VLM
icon
搜索文档
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-19 07:32
微信扫码添加小助理邀请进群,备注自驾+昵称+求职; 大家都感觉到自动驾驶技术栈开始趋同,以前大大小小几十个方向都需要算法工程师,现在one model、 VLM、VLA,统一方案的背后其实是更高的技术壁垒。博主一直在鼓励大家坚持、多多交流,但归根结底个 人的力量是有限的。我们希望共建一个大的社群和大家一起成长,真正能够帮助到一些有需要的小伙伴,成为 一个汇集全行业人才的综合型平台。所以我们也开始正式运营求职与行业相关的社群。社群内部主要讨论相关 产业、公司、产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加 入我们! ...
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 09:33
理想汽车 - 理想i8核心亮点为VLA"司机大模型",是智驾领域继端到端+VLM后的新进展 [1] - VLA模块全新设计,空间编码器结合语言模型与逻辑推理优化驾驶决策,Diffusion模型预测轨迹 [1] - VLA推理帧率10赫兹,较VLM的3赫兹提升3倍多 [1] 小鹏汽车 - 小鹏G7 Ultra版明确VLA和VLM上车时间表:2025年9月VLA推送,11月VLM升级,12月实现智能学习个性化推荐 [2] - 车型搭载3颗自研图灵AI芯片,综合算力2250TOPS,居量产车领先水平 [2] 奇瑞汽车 - 2025年通过猎鹰900智驾系统将VLA与世界模型引入燃油车,实现"油电同智" [3] - 自研VLA模型融合视觉感知、语言理解与动作执行,训练数据2000万公里,覆盖5000种交通场景 [3] - 城区复杂路况中非标交通信号识别准确率92%,较传统系统提升37% [3] 吉利汽车 - 布局VLA技术,构建泛世界模型体系,千里浩瀚系统采用"双端到端模型"设计 [4] - 系统搭载双英伟达Thor芯片,总算力1400TOPS,40余个感知单元可探测300米外0.75米目标 [4] 元戎启行 - 三季度将有5款车型搭载VLA模型,去年6月已开始开发,进度领先 [5] - VLA模型主打防御性驾驶,含空间语义理解、异形障碍物识别等四大功能 [5] - 模型率先适配NVIDIA Thor芯片,后续将优化适配更多平台 [5] 行业技术趋势 - VLA技术成为车企智驾竞争焦点,涉及推理帧率提升、多模态融合、场景覆盖等维度 [1][3][5] - 高算力芯片(如2250TOPS图灵、1400TOPS Thor)支撑复杂模型部署 [2][4][5] - 燃油车与电动车同步推进VLA应用,打破"油电"智能化界限 [3]
自动驾驶秋招&社招求职群成立了!
自动驾驶之心· 2025-08-05 07:33
自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势,从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台,旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长,并建立行业人脉网络 [1]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 11:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]
70K?端到端VLA现在这么吃香!?
自动驾驶之心· 2025-07-21 19:18
端到端自动驾驶技术发展 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地 上半年VLA概念掀起新一轮量产方案迭代 [2] - 行业薪资水平显示:3-5年经验的VLM/VLA算法专家年薪达百万 月薪高达70K [2] - 技术流派分化明显:二段式端到端以PLUTO为代表 一段式分为感知型(UniAD)、世界模型型(OccWorld)、扩散模型型(DiffusionDrive)等四大方向 [4] 技术流派与前沿进展 - 二段式端到端聚焦模型自车规划 包含港科技PLUTO、浙大CarPlanner(CVPR'25)、中科院Plan-R1等代表性工作 [7][22] - 一段式端到端四大子领域: - 感知型:UniAD为奠基作 地平线VAD和CVPR'24的PARA-Drive为最新进展 [23] - 世界模型型:AAAI'25的Drive-OccWorld和复旦OccLLaMA实现场景生成/端到端/闭环仿真多应用 [23] - 扩散模型型:DiffusionDrive开创多模轨迹时代 吉大DiffE2E为最新成果 [23] - VLA型:小米ORION、慕尼黑工大OpenDriveVLA和ReCogDrive代表大模型时代技术方向 [23] 行业人才需求 - VLA/VLM算法专家岗位需求旺盛: - 3-5年经验硕士薪资40-70K·15薪 [10] - 多模态方向博士应届生可达90-120K·16薪 [10] - 模型量化部署工程师1-3年经验薪资40-60K·15薪 [10] - 技术能力要求涵盖大语言模型 BEV感知 扩散模型 强化学习与RLHF等跨领域知识 [7][15] 技术培训体系 - 课程体系覆盖五大模块: - 端到端发展历史与VLA范式演变 [21] - 核心技术栈包括Transformer/CLIP/LLAVA/BEV感知/扩散模型理论 [24] - 二段式与一段式技术对比及工业落地 [22][23] - RLHF微调实战与大模型强化学习应用 [25] - 教学采用Just-in-Time Learning理念 三个月完成从理论到实践的闭环训练 [16][17][18][30] 技术门槛与挑战 - 学习路径需同时掌握多模态大模型 BEV感知 视觉Transformer 扩散模型等六大技术领域 [15] - 论文数量繁多且知识碎片化 高质量文档稀缺导致入门难度高 [15] - 硬件要求需配备4090及以上算力GPU 需具备Transformer和PyTorch基础 [32]
2025中国高阶智能辅助驾驶最新技术洞察:算力跃迁、数据闭环、VLA与世界模型
亿欧· 2025-06-05 13:42
报告行业投资评级 未提及相关内容 报告的核心观点 - 高阶智能辅助驾驶技术需在算法、数据、算力升级的同时解决安全短板,推动技术迭代与安全验证同步发展 [23] - 车端算法架构从模块化向端到端演进,一段式端到端VLA推动智能驾驶从“数据驱动”向“认知驱动”跃迁,多段式端到端E2E+VLM将被替代 [66] - VLA大模型“类人决策”特点将重塑智能辅助驾驶竞争格局,车企需平衡算法创新、工程落地与成本控制 [69] - 全栈自研仅头部新势力可长期维持,自研+外采将成多数车企主流选择,全栈外采在中低端车型仍有空间,行业呈“分层竞争、多元共存”格局 [83] - 尽管车企和政策推动L3落地,但大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,L3规模化上车进度可能放缓 [99] 根据相关目录分别进行总结 中国高阶智能辅助驾驶市场背景 - 高阶辅驾ODD再扩展:未提及具体内容 - 科技平权与技术普惠:未提及具体内容 - 事故焦虑与安全冗余:今年部分头部车企智能辅助驾驶NOA功能事故暴露技术边界与用户认知错配,引发安全信任危机;工信部发文规范宣传,为行业过热宣传降温;技术需在多方面升级同时解决安全短板 [21][23] - 政策护航与理性宣传:2025年4月16日,工信部发布通知规范智能网联汽车驾驶辅助功能宣传及技术验证,禁止夸大能力,要求功能验证周期与用户安全教育 [23] 中国高阶智能辅助驾驶技术洞察 高阶智能辅助驾驶技术洞察 - 解码算力、数据、算法的技术底层逻辑:未提及具体内容 高阶智能辅助驾驶算力洞察 - 车端算力:向千级TOPS跃迁,大算力芯片加速普及,国产芯片未来可期;目前国内量产芯片多≤200TOPS,未来500 - 1000TOPS+芯片将成主流;车端受硬件算力限制,依赖云端大模型,架构向端到端转型;未来车端将实现端到端大模型本地化部署,车规级芯片算力上限将突破 [42][43][44] - 云端算力:未提及具体内容 高阶智能辅助驾驶数据洞察 - 数据难题:未提及具体内容 - 数据采集:未提及具体内容 - 定位技术:未提及具体内容 高阶智能辅助驾驶算法洞察 - 端到端、VLA、世界模型:车端算法以端到端架构为基础,VLM辅助E2E处理复杂决策,VLA融合多模态信息提升泛化能力;云端模型从模仿学习演进至生成式世界模型,构建闭环训练系统支撑车端模型泛化能力升级 [61] - 算法架构:从模块化到多段式端到端再到一段式端到端演进,一段式端到端VLA推动智能驾驶跃迁,多段式端到端E2E+VLM将被替代 [65][66] - VLA:起源于2023年谷歌探索,2025年上车引领智能辅助驾驶升级,但面临算力、数据成本、推理延迟等挑战,需强化多模态融合、车云协同 [68][69] 中国高阶智能辅助驾驶竞合分析 企业梯队与产业图谱 - 未提及具体内容 开发策略与合作模式 - 开发策略:主机厂智能辅助驾驶方案开发策略分软硬全栈自研、自研+外采、软硬全栈外采;全栈自研技术壁垒高但资金/人才门槛高,自研+外采平衡成本与技术,全栈外采快速量产、成本可控 [82] - 合作模式:包括全栈自研、自研+外采、全栈外采;全栈自研仅头部新势力可维持,自研+外采成主流,全栈外采在中低端车型有空间 [83] 中国高阶智能辅助驾驶趋势洞察 乘用车L3商业化进展 - 2025年主机厂陆续发布L3、L4量产规划,数据积累与政策协同推动安全升级;L3级自动驾驶ODD限定在高速路段,L4级可在城市限定区域运行;L3大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,规模化上车进度可能放缓 [96][97][99]
AI 如何成为理想一号工程
晚点LatePost· 2025-05-23 15:41
公司战略调整 - 2023年10月秋季战略会将智能辅助驾驶业务优先级提升至第一战略,车机端理想同学从最高优先级(IP0)降至最低(IP2)[4] - 2023年初确立"2030年成为全球领先人工智能企业"愿景[5] - 2024年1月设立AI技术委员会整合各部门AI资源,成员包括产品部和各研发部门负责人[15][16] AI产品发展 - 车机端理想同学基于T5架构打造10亿参数模型,2023年12月推出多模态认知大模型Mind GPT 1.0[6][7] - 2024年3-4月开发理想同学App,12月底上线手机端应用,2024年3月推出网页版[7] - 基座模型部门升级为二级部门,目标进入行业前三[17] 智能辅助驾驶进展 - 2020年9月组建自研团队,2022年L9上市搭载AD Max系统[9] - 2023年10月扩招50余个岗位,团队规模突破千人[10] - 2024年7月启动"端到端+VLM"千人内测,10月实现量产上车[10][11] - 技术路线从"端到端+VLM"转向VLA架构,VLA模型具备3D视觉和物理世界理解能力[12] 组织架构调整 - 2024年初总裁马东辉接替李想负责智能汽车战略,李想专注AI方向[13] - 2023年设立AI周会制度,2024年升级为AI技术委员会[14][15] - 基座模型负责人陈伟汇报对象调整为CTO谢炎,部门级别提升[16][17] 技术路线演进 - 初期采用供应商方案,2021年启动理想同学自研[6] - 2022年探索大规模语言模型应用,2023年实现算法全自研[6][7] - 智能辅助驾驶从依赖高精地图转向"无图"方案,最终采用VLA架构[11][12]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]