VLA
搜索文档
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-19 07:32
技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才 通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道 帮助成员获取产业第一手信息 [1]
VLA都上车了,还不知道研究方向???
自动驾驶之心· 2025-08-17 00:04
理想VLA司机大模型技术突破 - 具备更懂语义的多模态输入、更擅长推理的思维链和更接近人类驾驶直觉的轨迹规划三大核心能力提升 [1] - 展示空间理解能力、思维能力、沟通与记忆能力以及行为能力四大核心功能 [1] - 结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出 [3] VLA技术发展趋势 - 由VLM+E2E技术发展而来,涵盖端到端、轨迹预测、视觉语言模型和强化学习等前沿技术栈 [5] - 成为自动驾驶学术界和工业界最受关注的方向,传统BEV感知和车道线技术研究减少 [3][5] - 工业界持续优化传统感知与规划方案,而学术界转向大模型与VLA领域研究 [5] VLA科研论文辅导课程体系 - 课程设置14周周期,包含先导课、课题概览、传统与VLA端到端自动驾驶技术讲解及论文写作方法论 [9][11][26][27] - 提供模块化VLA自动驾驶模型、统一端到端模型和推理增强模型三大研究方向 [9][11][26] - 每周安排1-1.5小时课程,包含选题讨论、算法对比和未来方向探究等环节 [26][27] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse等,并支持大语言模型生成数据 [21][23] - 提供基于模仿学习、扩散模型和VLA的端到端自动驾驶Baseline代码库 [24] - 包含5篇必读论文,涵盖VLA自动驾驶综述、Senna、SimLingo、OpenDriveVLA和ORION等核心研究 [24] 招生与培养方案 - 每期限招6-8人,要求具备深度学习基础、Python和PyTorch能力,并通过在线1v1面试 [12][19] - 硬件要求最低4张4090显卡,推荐8张4090或云服务器租赁方案 [19] - 采用"2+1"多师制教学团队,配备主导师和科研论文班主任提供全方位学习支持 [22] 课程产出与价值 - 学员将获得论文初稿、项目结业证书和推荐信(根据优秀程度) [22] - 培养创新点挖掘、实验方法设计、论文写作和投稿能力 [13][18][31] - 提供12周在线科研+2周论文指导+10周论文维护的全周期服务 [14][31]
VLA与自动驾驶科研论文辅导第二期来啦~
自动驾驶之心· 2025-08-16 20:00
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术演进路径:从VLM+E2E发展为涵盖端到端、轨迹预测、视觉语言模型、强化学习的综合技术栈[5] 自动驾驶技术研究趋势 - 学术界焦点转移:传统BEV感知、车道线检测等研究减少,大模型与VLA成为顶会主流方向[5] - 工业界动态:传统感知/规划方案仍在优化,但技术迭代明显向VLA倾斜[5] - 典型技术融合案例:思维链输出结合动态目标、静态元素、导航地图等多维度数据[3] VLA论文指导课程体系 课程架构 - 周期设置:12周在线科研+2周论文指导+10周维护期[14][34] - 核心模块:模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)、推理增强模型(Week12)[9][11][35][37] - 方法论覆盖:选题(Week3)、传统端到端技术(Week4-5)、VLA端到端技术(Week6-7)[9][11][30] 教学资源 - 代码库支持:提供基于模仿学习、扩散模型、VLA的6个开源项目基准代码[26] - 数据集配置:采用nuScenes/Waymo/Argoverse等公开数据集,VLA任务结合大语言模型生成数据[27] - 必读论文清单:包含5篇顶会论文如《Senna》《OpenDriveVLA》等[28][29] 学员培养目标 - 能力输出:完成论文初稿、掌握算法对比分析方法、获得定制化研究idea[20][34] - 技术深化路径:从理论认知(Week1-2)到代码实践(Week6-8)最终形成完整论文(Week13-14)[30][31] - 硬件门槛:建议配置8张NVIDIA 4090显卡,最低要求4张[21]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-14 20:00
具身智能论文辅导服务 - 提供具身智能领域的1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习和sim2real 主要面向A会和B会投稿需求[1] - 辅导覆盖多个顶级学术会议 包括CVPR ICCV ECCV ICLR CoRL ICML ICRA等[2] - 辅导老师均来自具身学术研究领域 具备活跃的学术研究能力和创新idea[2] - 咨询方式包括添加微信oooops-life或扫码联系 需备注"具身论文辅导咨询"[3]
自动驾驶VLA论文指导班第二期来啦,名额有限...
自动驾驶之心· 2025-08-14 14:49
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术整合动态目标、静态元素、导航地图等多元素进行思维链输出[3] - VLA技术路径融合端到端学习、轨迹预测、视觉语言模型和强化学习等前沿技术栈[5] 自动驾驶技术研究趋势 - 学术界研究重心从传统BEV感知/车道线检测转向VLA大模型方向[5] - 工业界仍在优化传统感知规划方案 但学术顶会已较少收录相关论文[5] - VLA成为自动驾驶领域最受关注方向 存在多个待探索子领域[3][5] VLA论文指导课程体系 课程架构 - 14周系统训练:包含传统端到端/VLA技术对比、模块化模型设计、推理增强模型等模块[9][11][26] - 采用"2+1"多师制教学(名校导师+行业专家+科研班主任)[22] - 配套资源包括公开数据集(nuScenes/Waymo等)、Baseline代码库(VAD/UniAD等)及5篇必读论文[23][24] 学员产出 - 可获得论文初稿、结业证书及潜在推荐信[22] - 掌握从选题(Week3)、实验(Week6-12)到投稿(Week14)全流程方法论[26][27] - 硬件要求最低配置4张NVIDIA 4090显卡 建议8张以上[19] 教学特色 - 提供定制化研究idea(每位学员1个)及持续6个月答疑服务[18][30] - 强制学术诚信规范 要求每周1-2小时课外学习及全勤参与[19][22] - 三重能力培养:理论体系构建(Week2)、代码实践(Week6-8)、论文写作(Week13)[6][26]
正式开课!端到端与VLA自动驾驶小班课,优惠今日截止~
自动驾驶之心· 2025-08-14 07:33
行业技术发展 - VLA(Vision-Language-Action)被视为自动驾驶量产的新里程碑,技术从E2E+VLM演进至VLA,引发行业广泛关注并吸引传统规控、感知等领域人才转型需求[1] - 端到端自动驾驶技术呈现多方向分化,涵盖多模态大模型、BEV感知、强化学习、扩散模型等关键技术栈,但跨领域学习门槛高且知识碎片化[11] - 技术迭代加速导致早期工业级端到端方案已不适应当前环境,VLA成为学术界与工业界共同发力的前沿方向,被称作"端到端自动驾驶的皇冠"[19] 课程体系设计 - 课程分五章递进式教学:从端到端发展史(第一章)、核心技术背景(第二章)到二段式(第三章)与一段式端到端及VLA(第四章),最终以RLHF微调实战收尾(第五章)[17][18][19][21] - 第二章聚焦未来两年高频技术关键词:大语言模型、BEV感知、扩散模型理论、强化学习与RLHF等[17][20] - 第四章深度解析四大一段式端到端子领域:基于感知(UniAD/VAD)、世界模型(Drive-OccWorld/OccLLaMA)、扩散模型(DiffusionDrive/DiffE2E)及VLA(ORION/OpenDriveVLA)[19] 职业发展价值 - VLA相关岗位薪资竞争力显著:VLA算法专家年薪达60-105万(40-70K*15薪),顶尖博士人才年薪144-192万(90-120K*16薪),实习生日薪220-400元[8] - 课程目标使学员达到1年经验算法工程师水平,掌握复现扩散模型/VLA框架能力,覆盖实习/校招/社招全场景需求[28] - 技术转型路径明确:传统算法岗可通过课程横向提升技能或转向VLA大模型算法工程师核心岗位[6][7] 教学特色 - 采用Just-in-Time Learning理念,通过案例教学快速构建技术框架,解决论文碎片化难题[12][13] - 配套三大实战环节:Diffusion Planner(扩散模型)、ORION(VLA)及RLHF微调大作业,实现理论到工业级应用的闭环[19][21] - 课程由TOP主机厂算法专家设计,整合CVPR'25、AAAI'25等最新研究成果及量产经验,8月15日开课分阶段解锁内容[22][26] 技术深度覆盖 - BEV感知模块详解:涵盖3D检测、车道线识别、OCC及轨迹预测规划等自动驾驶核心感知任务[20] - 多模态技术栈:从CLIP/LLAVA视觉语言基础到VLA完整技术链路,结合GRPO等前沿强化学习方法[19][20] - 扩散模型应用:重点解析多模轨迹预测技术,包括Diffusion Planner等工业落地方案[19]
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 14:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 09:33
理想汽车 - 理想i8核心亮点为VLA"司机大模型",是智驾领域继端到端+VLM后的新进展 [1] - VLA模块全新设计,空间编码器结合语言模型与逻辑推理优化驾驶决策,Diffusion模型预测轨迹 [1] - VLA推理帧率10赫兹,较VLM的3赫兹提升3倍多 [1] 小鹏汽车 - 小鹏G7 Ultra版明确VLA和VLM上车时间表:2025年9月VLA推送,11月VLM升级,12月实现智能学习个性化推荐 [2] - 车型搭载3颗自研图灵AI芯片,综合算力2250TOPS,居量产车领先水平 [2] 奇瑞汽车 - 2025年通过猎鹰900智驾系统将VLA与世界模型引入燃油车,实现"油电同智" [3] - 自研VLA模型融合视觉感知、语言理解与动作执行,训练数据2000万公里,覆盖5000种交通场景 [3] - 城区复杂路况中非标交通信号识别准确率92%,较传统系统提升37% [3] 吉利汽车 - 布局VLA技术,构建泛世界模型体系,千里浩瀚系统采用"双端到端模型"设计 [4] - 系统搭载双英伟达Thor芯片,总算力1400TOPS,40余个感知单元可探测300米外0.75米目标 [4] 元戎启行 - 三季度将有5款车型搭载VLA模型,去年6月已开始开发,进度领先 [5] - VLA模型主打防御性驾驶,含空间语义理解、异形障碍物识别等四大功能 [5] - 模型率先适配NVIDIA Thor芯片,后续将优化适配更多平台 [5] 行业技术趋势 - VLA技术成为车企智驾竞争焦点,涉及推理帧率提升、多模态融合、场景覆盖等维度 [1][3][5] - 高算力芯片(如2250TOPS图灵、1400TOPS Thor)支撑复杂模型部署 [2][4][5] - 燃油车与电动车同步推进VLA应用,打破"油电"智能化界限 [3]