VLA
搜索文档
理想汽车(LI):跟踪报告:3Q25 业绩承压,静待管理模式转型后的再次跃升
光大证券· 2025-11-28 20:47
投资评级 - 维持“增持”评级 [4] 核心观点 - 报告认为3Q25业绩承压主要由于销量低于预期(增程老车竞品力减弱+纯电新车爬坡不及预期)以及Mega召回计提等因素 [1] - 鉴于市场波动、行业竞争加剧以及产品结构变化,下调2025E-2027E Non-GAAP归母净利润预期至26亿元/30亿元/65亿元(此前预期约50亿元/123亿元/176亿元) [4] - 看好理想汽车基于家庭用户的定位与AI智能化的兑现前景,但需注意市场与竞争加剧风险 [4] 3Q25业绩分析 - 3Q25总收入为273.6亿元,同比下降36.2%,环比下降9.5% [1] - 3Q25毛利率为16.3%,同比下降5.2个百分点,环比下降3.8个百分点 [1] - 3Q25 Non-GAAP归母净亏损3.6亿元,为2023年至今首次单季度Non-GAAP亏损 [1] - 3Q25汽车业务收入为258.7亿元,同比下降37.4%,环比下降10.4% [2] - 3Q25汽车销量为9.3万辆,同比下降39.0%,环比下降16.1%;平均售价(ASP)为27.8万元,同比上升2.6%,环比上升6.7% [2] - 3Q25汽车业务毛利率为15.5%,同比下降5.4个百分点,环比下降3.9个百分点 [2] - 3Q25研发费用率为10.9%,同比上升4.8个百分点,环比上升1.6个百分点;SG&A费用率为10.1%,同比上升2.3个百分点,环比上升1.1个百分点 [2] - 3Q25 Non-GAAP单车亏损约0.4万元(对比3Q24 Non-GAAP单车盈利2.5万元、2Q25 Non-GAAP单车盈利1.3万元) [2] - 3Q25自由现金流净流出89亿元;截至3Q25末,在手现金合计约989亿元 [2] 未来展望与公司战略 - 管理层指引4Q25E交付量为10-11万辆;鉴于政策波动、竞争加剧及纯电销量占比抬升,预计4Q25E-1Q26E基本面仍将持续承压 [2] - 管理层指引自11月开始i6电池供应将采用双供应商模式,预计2026年初i6月产能可提升至2万辆 [3] - 预计2026E产品力有望改善,因素包括自研三电技术(800V高压平台+5C快充、自研5C电池将量产)、智驾体验持续升级(VLA已全量推送给AD Max车型、自研芯片M100将于2026E上车)以及理想改款/全新车型(尤其L增程系列)的产品力改善 [3] - 后续产品矩阵将回归精简SKU模式;继8月调整销售服务体系后,9月将智驾三个二级部门拆分成11个小部门,旨在提升运营和研发效率 [3] - 管理层明确重新切回创业公司的管理模式,当前已实现自研VLA大模型、开源Halo OS操作系统等;长期看好其在具身智能等AI相关领域的延伸兑现潜力 [3] 财务预测 - 预测营业总收入2025E为1117.4亿元,同比下降22.7%;2026E为1239.2亿元,同比上升10.9%;2027E为1450.26亿元,同比上升17.0% [5] - 预测Non-GAAP归母净利润2025E为25.59亿元,同比下降76.0%;2026E为30.09亿元,同比上升17.6%;2027E为64.62亿元,同比上升114.7% [5] - 预测Non-GAAP EPS(普通股,摊薄)2025E为1.20元,2026E为1.41元,2027E为3.02元 [5] - 预测Non-GAAP ROE(归属母公司,摊薄)2025E为3.6%,2026E为4.1%,2027E为8.4% [5] - 预测Non-GAAP P/E 2025E为55.5倍,2026E为47.2倍,2027E为22.0倍 [5] - 预测P/B 2025E为2.0倍,2026E为1.9倍,2027E为1.8倍 [5] 市场表现 - 当前股价为18.43美元,总市值为197.28亿美元 [6] - 近1个月绝对收益为-13.6%,相对收益为-11.0;近3个月绝对收益为-18.5%,相对收益为-26.0;近1年绝对收益为-20.9%,相对收益为-42.7 [9]
关于端到端和VLA岗位,近期的一些态势变化
自动驾驶之心· 2025-11-28 08:49
行业人才供需现状 - 自动驾驶行业高级岗位招聘困难,企业对经验丰富人才需求旺盛[2] - 行业技术发展从模块化转向端到端,从感知规控扩展至大模型领域,复合型人才稀缺[2] - 端到端VLA算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多技术融合[2] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA三大领域:VLM作为自动驾驶解释器、模块化VLA、一体化VLA及推理增强VLA[2] - 配套理论基础涵盖Vision/Language/Action三大模块、强化学习、扩散模型等核心技术[2] - 设置大作业章节指导学员从零搭建VLA模型及数据集[2] - 授课团队包括清华大学硕士生咖喱,在ICCV/IROS/EMNLP/Nature Communications发表多篇论文[8] - 团队成员Max在EMNLP/IROS/ICCV/AISTATS发表论文,GitHub开源项目总Star数超2k[8] - 团队成员Eric在RAL/IROS/EMNLP发表论文,专注在线建图感知与VLA算法预研[11] 端到端与VLA自动驾驶课程 - 课程覆盖端到端自动驾驶宏观领域,重点讲解一段式/两段式算法与理论基础[12] - 核心技术包括BEV感知、大语言模型、扩散模型和强化学习[12] - 设置两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法[12] - 授课老师Jason具备C9本科+QS50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家[14] - 教师团队拥有端到端算法量产交付经验,主持过多项自动驾驶感知产品研发[14] 课程参与门槛 - 学员需自备GPU,推荐算力在4090及以上级别[15] - 要求具备自动驾驶基础模块知识,熟悉Transformer大模型、强化学习、BEV感知等概念[16] - 需掌握概率论、线性代数基础及Python/PyTorch编程能力[16]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 18:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
VLA+RL方向的合伙人招募了~
具身智能之心· 2025-11-24 18:02
招聘背景与需求 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解[1] - 公司向全平台粉丝招募该方向课程和项目辅导老师 共同输出高质量内容[1] 岗位要求 - 研究方向需聚焦视觉语言动作与强化学习领域[2] - 学术界应聘者需博士及以上学历 拥有相关方向顶级会议成果[2] - 工业界应聘者需具备实战经验和真机调试经验[2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] - 公司将提供高于行业平均水平的薪酬待遇[4] - 公司将提供丰富的行业资源支持[4] 联系方式 - 详细招聘内容可通过指定微信账号进行咨询[5]
认知驱动下的小米智驾,从端到端、世界模型再到VLA......
自动驾驶之心· 2025-11-24 08:03
小米汽车智能驾驶技术发展 - 智能驾驶能力发展遵循三个阶段:从1.0规则驱动到2.0数据驱动再到3.0认知驱动[7] - 技术发展路线为:2024年3月高精地图版本高速NOA → 2024年5月城区NOA → 2024年10月轻图和无图版本 → 2025年2月300万clips端到端版本 → 2025年7月1000万clips版本 → 近期世界模型版本[7] - 在安全、舒适和效率三个维度上,安全永远是第一位[4] - 泊车功能渗透率最高且用户使用最多,城区智驾投入最大且提升空间最大[8] - 2024年11月21日广州车展发布Xiaomi HAD增强版,将通过OTA冬季大版本Xiaomi HyperOS 1.11系列推送给用户[8] 世界模型技术特性 - 世界模型三大核心特性:生成的多样性(重建真实性+快速新场景生成+场景编辑)、多模态输入输出(文字/视频输入+视觉/LiDAR重建)、交互能力(闭环影响下一时刻自车行为)[9] - 世界模型更偏云端应用,通过数据生成、闭环仿真和强化学习提升模型性能,不直接参与车端Action输出[10] - 1.11版本引入世界模型和强化学习,主要解决极端corner case场景,采用重建+生成结合方式[8] VLA与端到端技术路线 - VLA(视觉语言动作模型)是认知驱动核心,为下一阶段量产目标,并非端到端的升级[7] - 端到端本质是模仿学习,VLA直接将大模型能力赋予自动驾驶,世界模型类似端到端plus[13] - VLA可与世界模型融合,学习人类高层次知识(交通规则/价值观)[13] - 小米大模型发展路线:LLM预训练 → VLM预训练 → 具身预训练 → 自驾VLA,已推出MiMo、MiMo-vl和MiMo-Embodied[13] - VLA的无损传递是相比端到端+VLM的最大提升[13] 自动驾驶技术社区资源 - 自动驾驶之心知识星球涵盖40+技术方向,包括VLA学习路线、端到端自动驾驶、世界模型等[16][27] - 社区成员来自300家机构与自驾公司,包括蔚小理、地平线、华为等头部企业[26] - 提供近40+开源项目、近60+数据集、行业主流仿真平台及各类技术学习路线[27] - 社区内部举办超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果[99]
VLA+RL方向的同学可以看过来了~
具身智能之心· 2025-11-21 08:04
招聘背景 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解 [1] - 公司向全平台粉丝招募该方向的课程和项目辅导老师 旨在共同输出高质量内容 [1] 职位要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历 拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集了大量视觉语言动作与强化学习方向的学习者 [3] - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 08:04
文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 12:02
文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
从技术路线到人员更迭,为什么智能驾驶又开始了“新造词”?
36氪· 2025-11-19 20:19
智能驾驶技术演进路径 - 行业技术路线从基于规则的模块化方案,演进至端到端方案,并进一步向VLA和世界模型发展 [2] - 基于规则的模块化方案采用感知、预测、规划、控制串联工作,时延长、信息损耗大,导致车辆博弈能力受限 [2] - 特斯拉于2023年8月推出端到端FSD V12测试版,国内华为、小鹏、蔚来、理想及Momenta等供应商相继跟进 [2] - 端到端方案通过投喂人类驾驶数据让系统学习驾驶,但存在无法主动学习和修正的短板,难以应对所有极端情况 [4] - 理想汽车在端到端基础上加入VLM,但开源模型能力有限,仅能辅助识别红灯读秒等简单场景 [5] - 小鹏和理想认为模仿学习无法突破L3,需转向VLA或世界模型,使系统能主动理解物理世界并执行驾驶动作 [5][7] - 小鹏第二代VLA取消语言转译环节,将多模态物理信号直接输出为控制信号,提升效率并支持自监督学习 [8] - 华为选择WAWE架构,蔚来推崇世界模型,均省略语言环节,通过多模态信息直接控制车辆 [8][10] - 博世指出VLA落地存在多模态特征对齐难、训练数据提取难、大模型幻觉及芯片带宽不足四大挑战 [10] 车企技术路线与战略布局 - 理想汽车发布VLA技术方案,将视觉转为语言再执行动作,并将研发资源向VLA倾斜,重组自动驾驶部门为11个二级部门 [7][15] - 小鹏汽车放弃传统VLA,全力开发第二代VLA,其算力达2250TOPS,由三颗自研图灵AI芯片支持 [8][11][12] - 蔚来自研芯片并强化世界模型,加入强化学习以处理长时序数据,推动人工智能技术变革 [11] - 华为坚持WAWE架构,避免VLA路线的"取巧"问题,通过多模态信息直接控制车辆 [8] - 文远知行与博世合作推出一段式端到端方案WePilot AiDrive,具备强兼容性和快速迭代能力,应用于奇瑞星途车型 [19][21] - 供应商方案因平台兼容性和成本效率优势,可能逐步取代部分车企自研,成为行业竞争主导力量 [18][21] 组织架构调整与资源投入 - 小鹏汽车在2024年10月调整自动驾驶负责人,由刘先明接替李力耘,标志技术路线从功能实现转向基础模型转型 [14] - 理想汽车于2024年9月重组自动驾驶部门,取消封闭研发模式,推动团队向AI组织演进 [15] - 蔚来在一年内进行三次自动驾驶部门调整,多名负责人离职,以聚焦世界模型2.0开发 [15] - 技术路线切换引发多轮组织变动,如小鹏将技术开发部分拆为AI端到端、AI能效和AI应用三个部门 [17] - 小鹏建设3万卡智算集群,训练费用投入20亿元,理想搭建13 EFLOPS云端算力,资金效率成为自研关键挑战 [21] 行业竞争格局变化 - 自研浪潮后,车企如长城、奇瑞、广汽转向与元戎启行、文远知行、Momenta等供应商合作 [18] - 供应商方案具备更优兼容性和迭代速度,可能缩小与自研车企的数据差距,重塑行业竞争格局 [18][21] - 当前技术仍属L2框架,但VLA和世界模型被视为通向L4的关键路径,小鹏认为第二代VLA可为具身智能铺路 [22]