VLA

搜索文档
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 08:04
想象一下,如果能通过语言下达指令,并且丝滑执行任何你想要的动作,是一件多么幸福的事情!如果能长时 间连续动作完成,将会非常方便。下面给大家介绍下VLA到底是啥? VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境, 广泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发 展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性 体现在能够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力 和实际应用价值,成为智能机器人领域的关键驱动力。 从今年各个机器人与AI顶会来看,VLA及其相关衍生方向,占据了近一半的具身产出。特别是长程操作、泛 化、少样本、VLA+RL、人形相关。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积极布局,与国外Tesla、Figure AI等公司正在一起 推动这一领域的发展。 很多同学后台留言,咨 ...
VLA及其相关方向占据了顶会近一半的具身工作,特别是这几个......
具身智能之心· 2025-09-23 12:00
从今年各个机器人与AI顶会来看,VLA及其相关衍生方向,占据了近一半的具身产出。特别是长程操作、 泛化、少样本、VLA+RL、人形相关。 想象一下,如果能通过语言下达指令,并且丝滑执行任何你想要的动作,是一件多么幸福的事情!如果能 长时间连续动作完成,将会非常方便。下面给大家介绍下VLA到底是啥? VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环 境,广泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目 的发展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。 其适应性体现在能够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供 了广泛的潜力和实际应用价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力 等团队从实验室走向商业化,华为、京东、腾讯等科技巨头也积极布局,与国外Tesla、Figure AI等公司正 在一起推动这一领域的发展。 很多同学后台留言,咨 ...
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 创业项目合作与推荐; 联系我们 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-21 00:03
欢迎大家加入一起交流相关的内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称 +方向加群。 自动驾驶之心技术交流群成立了,开学季&秋招期我们开放了几个技术交流群(世界模型/端到端/VLA等方 向)。 ...
人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI
2025-09-18 21:09
**行业与公司** 行业涉及人形机器人及自动驾驶 公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张 当前主要用于教育和研发 未来2-3年将广泛用于工厂场景 长期有望进入商业和家庭应用领域 当前全功能人形机器人BOM成本约5-6万美元 未来5年成本将快速下降 得益于产品设计改进和规模效应 [1] 自动驾驶领域 日益严格的法规将为AD零部件提供更多机会 例如L3要求可能带来长距离物体检测需求 利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型 凭借寿命 温控和负载性能优势 长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台 公司灵巧手出货量预计60-90万台 灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算 单台价值量4-6万元人民币 [12][13] 视觉系统方面 奥比中光认为深度相机(包括结构光相机和间接飞行时间iToF)是人形机器人主流选择 而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识 其控制器可很好应用于人形机器人执行器 [2][15] 材料方面 联想控股看到镁合金在人形机器人结构材料中采用率上升 因减重要求和生产工艺成熟 镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤 政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型 而世界模型学习现实世界物理规律 所需边缘侧计算能力更少 在长流程任务中表现良好 当前高质量数据可用性是关键瓶颈 机器人初创企业可能结合使用模拟数据和真实数据 或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪 极氪 东风 一汽大众等汽车工厂用于物料搬运 目标2025年出货500台 2026年出货2000-3000台 当前BOM成本5-6万美元 预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度(192通道对64通道) 探测距离(300米对200米)和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品 截至2025年8月已为40多款车型获得EM4/EMX设计订单 很可能成为小米 理想 零跑和长安的第二供应商 预计2025年ADAS激光雷达出货60-70万台 2026年150万台 其中约50%来自比亚迪 20-25%来自吉利 约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长 显示份额提升 2025年一季度推出首款人形机器人原型 三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台 关节是人形机器人关键部件 占成本40%以上 包括电机 减速器和执行器 当前产品有28个关节 下一代目标31个关节 预计平均售价ASP将随规模效应下降 到2026-2028年降至15万元人民币(约2万美元) [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案(前视摄像头模块FVCM) L2+到L3的iPilot解决方案(域控制单元DCU)以及L4的iRobo解决方案 中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元 基于10倍2026年预期每股收益 下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元 基于DCF和EV/销售额估值平均 下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司 包括买入 中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来 可能存在利益冲突 投资者应将此报告仅作为投资决策的单一因素 [4][5]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-12 07:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-11 07:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]