Workflow
Vision-Language-Action (VLA)
icon
搜索文档
科技未来:视觉语言动作- 自动驾驶的下一个 AI 前沿-Future of Tech_ VLA as the next AI frontier in autonomous driving
2026-03-24 09:27
自动驾驶行业研究报告:VLA作为下一代AI前沿技术 一、 行业与公司概览 * **行业**: 全球汽车行业,聚焦自动驾驶技术发展,特别是从规则驱动到端到端架构,再到视觉-语言-动作模型的演进[1][86] * **主要涉及公司**: * **日本车企**:丰田、本田、日产、斯巴鲁、马自达、铃木、索尼本田移动出行[4][8] * **中国车企**:小鹏、理想、小米、比亚迪、蔚来、吉利、广汽、上汽、长城[5][13] * **美国/全球车企**:特斯拉、通用、福特、大众[13][105][168][174] * **科技/供应商**:Waymo、Wayve、Momenta、华为、博世、电装、Mobileye、Nvidia、地平线、图灵、Hesai[3][11][55][101][177][186][189] 二、 自动驾驶技术演进与核心趋势 * **技术路线转变**:行业正从**规则驱动**系统(基于预定义“如果-那么”逻辑,依赖多传感器和高清地图)加速向**端到端**架构(AI模型处理感知、规划与控制)转变,以提高适应性和处理复杂场景的能力[2][86] * **下一代前沿:VLA模型**:视觉-语言-动作模型被视为E2E发展的下一阶段,旨在解决视觉语言模型的局限性[3] * **VLMs**:提供语义推理和文本输出[3] * **VLAs**:将多模态感知直接转化为可执行的控制命令,实现更高级别的推理和行动[3][94] * **领先玩家**:Waymo利用谷歌Gemini开发Waymo基础模型;小鹏、理想、小米、索尼本田移动出行也在推进VLA架构[3][101] * **传感器配置与成本权衡**:不同传感器(摄像头、激光雷达、毫米波雷达、超声波传感器)各有优劣,系统性能取决于有效集成与成本平衡[54][59] * **摄像头**:成本较低(每台20-100美元),适合物体分类,但远距离3D感知和恶劣天气下性能受限[54] * **激光雷达**:提供高分辨率3D点云数据,对处理复杂城市环境中的安全关键场景至关重要,但成本较高(每台200-900美元)[55][60] * **传感器融合趋势**:Waymo等采用多传感器融合以提高鲁棒性;特斯拉坚持纯视觉方案以降低成本[100][106] 三、 全球及主要市场自动驾驶渗透率预测 * **全球市场**: * **L2+/L2++渗透率**预计从2025年的**15%** 上升至2030年的**36%**,成为中期增长主要驱动力[1][25][28] * **L3及以上**因系统复杂性、成本和监管限制,普及需要更长时间,预计到2035年渗透率仅达**17%**[1][25] * **中国市场(领先者)**: * **L2+/L2++渗透率**预计从2025年的**28%** 飙升至2030年的约**70%**,是全球平均水平(36%)的近两倍[1][30][34] * **L3渗透率**预计到2040年达到约**70%**,进展快于美国[30] * **2025年数据**:约**28%** 的乘用车具备高速和/或城市NOA功能;在电动车中渗透率升至**52%**;在**25万人民币以上**的电动车细分市场,渗透率超过**80%**,已成为必备功能[30][40] * **美国市场**: * **L2+/L2++渗透率**预计从2025年的约**17%** 升至2030年的约**36%**,与全球平均水平持平[1][42] * **L3渗透率**预计在2030年达到约**9%**,略高于全球的7%[42] * 市场特点:高端车型占比高,消费者对付费选项接受度强,NOA功能已成为产品竞争力重要元素[42] * **日本市场**: * **L2+/L2++渗透率**预计从2025年的约**8%** 上升至2030年的**29%**,逐步缩小与全球水平的差距[1][48] * 车企采取逐步升级策略,强调安全性和可靠性;L4/L5可能首先部署在区域出行服务和公共交通替代领域[48] 四、 主要车企战略与进展 * **日本车企**: * **丰田**:采取“多路径”策略,结合内部开发(如Woven City)、初创公司投资以及Waymo合作[4][9]。其**1.5亿辆**的全球车队和移动服务平台为模型训练所需的海量驾驶数据提供了结构性优势[4][9] * **日产**:通过与Wayve合作,推广配备NOA的车辆,并优先从其活跃车队中获取数据反馈循环[4][10]。计划在2027财年实现基于Wayve E2E技术的自动驾驶商业化[126] * **本田**:推进内部E2E技术栈,并通过与索尼的合资企业索尼本田移动出行在VLA开发方面领先日本同行[4][9]。计划在2027年开始量产自研E2E ADAS[155] * **索尼本田移动出行**:计划在2026年推出的Afeela车型上结合本田的ADAS能力与索尼的娱乐应用优势,是日本车企中唯一积极内部开发VLA模型的公司[8][9][161] * **中国车企(处于前沿)**: * **小鹏**:VLA技术领跑者,已推出**VLA 2.0**,显著提升用户体验,并展示出自信、类人的决策能力[5][110]。使用自研图灵芯片,G7 Ultra车型提供约**2200 TOPS**算力以支持VLA功能[110] * **理想**:推出自研VLA架构**MindVLA**,将其定位为实现L4自动驾驶道路上的重要里程碑[111]。AD Max系统的训练数据在7个月内从**100万**段增加到**1000万**段[111] * **小米**:尽管未明确标注为VLA,但其ADAS架构从第一天起就是端到端的,底层“猎户座”系统本质上是VLA架构[117]。截至2025年中,已在自动驾驶领域投入约**47亿元人民币**研发[118] * **比亚迪**:2025年2月宣布推出基于E2E的“天神之眼”平台,实现高端车型的城市NOA,并战略性地将高速NOA功能下放至**10万人民币以下**的入门车型[120] * **美国/全球车企**: * **特斯拉**:E2E架构先驱,采用单体AI模型,并过渡到纯视觉系统[87][106]。计划从2026年2月14日起将FSD购买选项改为仅限订阅,旨在建立经常性收入服务[105] * **通用汽车**:在Cruise事故后,将重点从机器人出租车转向乘用车自动驾驶技术[168] * **福特**:计划在2028年部署脱手L3自动驾驶功能,采用传感器丰富策略,包括激光雷达[174][175] 五、 供应商面临的机遇与挑战 * **结构性变化**:随着车企寻求内部化软件开发并控制自动驾驶功能,供应商可能越来越多地被要求提供**纯硬件**解决方案[11][178] * **风险**:对于传统上提供软硬件捆绑“黑盒”方案的供应商,软件相关收入流面临侵蚀风险[11][178] * **机遇**:电装等能够提供从半导体到动力总成及相关软硬件的集成解决方案的供应商,有望从集成ECU和相关软件中受益[11] * **中国市场特殊性**:日本车企在中国越来越多地转向Momenta等本土供应商寻求ADAS/AD解决方案,以采用先进技术并应对激烈的价格竞争,这可能给传统零部件供应商的中国业务带来潜在下行风险[11] 六、 投资观点与评级总结 * **日本汽车股**: * **跑赢大盘**:铃木、丰田[12] * **与大盘一致**:本田、电装[12] * **跑输大盘**:日产、马自达、斯巴鲁[12] * **中国汽车股**: * **电动车领域**:比亚迪、小米评级为**跑赢大盘**;小鹏、蔚来、理想评级为**与大盘一致**[14] * **传统车企**:吉利评级为**跑赢大盘**;长城、广汽、上汽评级为**与大盘一致**[14] 七、 其他重要信息 * **监管与政策**:日本政府将软件定义汽车定为国家优先事项,设定了到**2030-2035年渗透率达30%** 的目标[12]。中国政府在2025年12月向北汽极狐和长安深蓝颁发了首批两张L3牌照[19] * **数据的重要性**:大规模、多样化的真实世界驾驶数据对于训练和改进自动驾驶模型至关重要,丰田等拥有庞大车队的公司在此方面具有结构性优势[4][9][153] * **商业化与盈利**:报告对中国车企的**货币化潜力**持谨慎态度,且其如何将这些先进功能引入海外市场以打造差异化全球产品仍存在不确定性[5] * **高清地图角色演变**:即使在“轻地图”或“无地图”的E2E系统中,高清地图仍可能用于定位支持、冗余和作为AI模型的训练数据,角色发生转变而非完全消失[66][67]
VLA的论文占据具身方向的近一半......
具身智能之心· 2025-09-18 12:00
VLA技术发展现状 - VLA及其相关衍生方向占据近一半的具身产出 包括长程操作 泛化 少样本 VLA+RL 人形相关等领域[1] - VLA打破传统单任务局限 使机器人能在多样化场景中自主决策 灵活应对未见过环境 广泛应用于制造业 物流和家庭服务等领域[1] - 推动多个前沿项目发展 包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[1] - 适应多种机器人平台 包括机械臂 四足机器人和人形机器人 为智能机器人发展提供广泛潜力和实际应用价值[1] 产业生态布局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元 星海图 银河通用 逐际动力等团队从实验室走向商业化[3] - 科技巨头积极布局 包括华为 京东 腾讯等国内企业与国外Tesla Figure AI等公司共同推动领域发展[3] 科研培训体系 - 课程聚焦智能体通过感知-认知-行动循环与物理世界交互 详细剖析VLA范式技术演进[7] - 涵盖从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型的技术发展路径[7] - 深入分析具身智能核心挑战 包括跨域泛化 长期规划与世界模型构建[8] - 研究如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换[8] - 探讨PaLM-E RT-X等模型通过多模态预训练和微调策略增强机器人开放环境适应性和鲁棒性[8] - 关注前沿发展方向 包括多模态感知融合 触觉反馈整合 基于物理的推理以及社会互动能力[8] 课程特色与产出 - 培养独立学术研究能力 系统性梳理隐式端到端 显式端到端 分层端到端三大VLA模型体系[9] - 提供从理论到实践全链路培养 包含仿真环境搭建 实验设计与论文撰写全过程指导[10] - 传授学术研究方法论 包括论文写作 文献阅读 创新点提炼等研究者必备技能[10] - 分析领域研究热点与未解决难点 包括长期记忆 VLA+RL原子技能库构建 动作解码问题 多模态思维链等前沿方向[13] - 通过个性化研究指导 帮助学生形成研究idea并完成初步实验 掌握将研究成果转化为高质量学术论文的能力[10][13] - 课程最终产出包括论文初稿 并使学生全面掌握具身智能VLA模型理论基础与技术演进路径[14] 技术要求 - 推理要求4090以上算力 训练算力建议4卡4090(可租借)[15] - 需要一定pytorch和python基础 能够自行修改代码[15]
中国人形机器人_ 人工智能大会要点_ 轮式机器人演示比双足更常见,应用更广泛-China Humanoid Robot_ WAIC 2025 takeaways_ Broader applications with wheel-based robot demo more common than bipedal
2025-07-29 10:31
涉及的行业和公司 - **行业**:人形机器人行业 - **公司**:Sanhua(三花智控,002050.SZ)、LeaderDrive(绿的谐波,688017.SS)、Moons' Electric(鸣志电器,603728.SS)、BEST(贝斯特,300580.SZ)、Luster(凌云光,688400.SS)、Baosight(宝信软件,600845.SS)、Supcon(中控技术,688777.SS);以及Noematrix、X Square Robotics、Beijing Humanoid Robot Innovation Center、Galbot、Spirit AI、Agibot、Kepler、Robotera、Ti5 Robot、TLIBOT、SYSMO、Unitree、Baosight、Fourier、Mech - Mind等 [1][21][22][23][25][26][27][28][31] 核心观点和论据 行业发展情况 - **行业进步明显**:2025世界人工智能大会规模较往年大幅提升,场地面积增加35%至70000平方米,门票价格上涨31%至168元/天,参展商达800家(同比增加60%),演讲者超1200人,展示的人形/具身机器人产品超60种(去年为25个静态原型),体现行业投资和政府支持增加 [1] - **应用场景探索更有针对性**:应用场景拓展至制造、仓储物流、消费零售、家庭养老等领域,不同公司聚焦不同场景,如Noematrix展示机器人做冰淇淋、按摩等服务应用,Beijing Humanoid Robot Innovation Center专注高风险工业场景 [2][7] - **产品改进显著**:人形机器人更多地从展示台走下来进行互动任务演示,相比2024年有明显进步,但互动任务成功率仍有提升空间 [2][8] - **向轮式底座收敛**:工作原型向AGV式轮式底座和功能性抓手发展,而非双足运动,这是向近期商业可行性的务实转变,对行星滚柱丝杠组件股票可能有负面影响 [2][9] - **成本曲线下降但不显著**:Unitree推出售价39990元起的新机型R1,多数全尺寸人形机器人ASP约40 - 50万元,小尺寸约10 - 30万元 [2][14][20] - **操作仍是核心挑战**:操作在具身AI核心任务中最难,在成功率、速度和准确性方面存在问题;Vision - Language - Action(VLA)模型被视为基础架构,强化学习(RL)被视为关键下一步,二者结合对具身AI商业化至关重要 [12] - **数据收集面临权衡**:人形公司面临真实世界数据和合成数据的权衡,多数公司采用10% - 50%的真实世界数据与合成数据混合训练 [13] 投资观点 |公司名称|评级|投资理由| | ---- | ---- | ---- | |Sanhua(002050.SZ)|Buy|在汽车/电动汽车热管理领域有增长潜力,HVAC方面EEV渗透率提升及ESS和海外热泵带来新机遇,预计GPM因原材料成本压力缓解和规模经济而改善,催化剂包括EV订单强劲、ESS业务扩张及人形机器人组件业务增长 [21]| |Zhejiang Supcon Technology Co.(688777.SS)|Buy|是中国过程自动化领先供应商,技术领先且有服务网络优势,预计自动化控制系统收入增长,有向工业软件拓展的清晰路径,估值有吸引力 [22]| |Best Precision(300580.SZ)|Neutral|有望成为人形机器人行星滚柱丝杠有竞争力的供应商,预计2027年起获得全球10%市场份额,机床组件商业化推进,但风险回报与覆盖范围相比公平 [23][25]| |Leader Harmonious Drive Systems Co.(688017.SS)|Neutral|是国内谐波减速器市场领导者,TAM扩张,有海外客户渗透进展,长期增长有潜力,但估值与覆盖范围相比合理 [26]| |Shanghai Baosight Software(600845.SS)|Neutral|是中国领先生产软件供应商,有政策支持和业务增长机会,但56%的收入来自关联交易,数据中心业务有压力,估值合理 [27]| |Moons' Electric(603728.SS)|Neutral|有望成为人形机器人无刷电机供应链关键参与者,但主业前景保守,考虑其在人形机器人和主业的潜力后,风险回报与覆盖范围相比公平 [28][30]| |Luster(688400.SS)|Sell|在机器视觉细分领域市场份额增长温和,2025年收入大部分未受益于有利终端市场,代理业务增长慢,估值过高 [31]| 价格目标与风险 |公司名称|12个月目标价格|关键风险| | ---- | ---- | ---- | |Sanhua(002050.SZ)|34.90元|EV热管理领域竞争加剧、特斯拉EV销售不及预期、中国房地产竣工不佳影响HVAC需求 [32]| |Zhejiang Supcon Technology Co.(688777.SS)|56.20元|国内资本支出不及预期、海外扩张缓慢、工业软件开发进度慢、应收账款天数可能延长 [33]| |Best Precision(300580.SZ)|27.10元|上行风险为传动部件开发更快、EV部件产能提升更快;下行风险为涡轮增压器渗透率增长缓慢、竞争或定价压力导致利润率低于预期 [34]| |Leader Harmonious Drive Systems Co.(688017.SS)|131.40元|上行风险为人形机器人量产和技术进步更快、渗透关键机器人客户更快;下行风险为国内工业/协作机器人需求不及预期、海外和本土品牌竞争压力增大 [35][36]| |Shanghai Baosight Software(600845.SS)|27.90元|上行风险为向非钢铁市场扩张更快、新产品商业化更快、设备升级需求更大;下行风险为宝武集团数字化进度慢、非一线城市数据中心需求弱、宝武集团行业整合进度慢 [37]| |Moons' Electric(603728.SS)|54.90元|上行风险为人形机器人进展更快、在人形机器人OEM中的市场份额高于预期;下行风险为终端市场需求不及预期、电机与驱动器市场份额增长进度慢 [38]| |Luster(688400.SS)|15.30元|上行风险为向新能源领域渗透进度更快、FPD行业增长好于预期、视觉软件开发更快 [39]| 其他重要但是可能被忽略的内容 - **各公司产品亮点**:如Agibot发布开源项目和数据集,Baosight的Turin机器人用于“3D”任务,Beijing Humanoid Robot Innovation Center展示多机器人协作系统,Fourier的GR - 3机器人用于医疗保健互动等 [17] - **投资相关概念说明**:包括GS Factor Profile(从增长、财务回报、估值和综合四个关键属性提供投资背景)、M&A Rank(对公司被收购概率进行排名)、Quantum(高盛专有数据库)等 [42][44][45] - **各种披露信息**:包括评级和定价信息、公司特定监管披露、美国及其他司法管辖区法律规定的额外披露、评级和覆盖范围相关定义、全球产品分发实体及一般披露等内容 [46][47][49][50][52][56]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]