VLA

搜索文档
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心· 2025-09-25 07:33
以下文章来源于具身智能之心 ,作者Zheng Geng等 玩过机器人操作的朋友都知道,"抓零件""放调料瓶" 这类需要精准交互的任务,核心是 "靠空间感知说话"——得知道物体的 3D 位置(平移)和朝向(旋转), 还要确保测算的尺度与真实世界一致。可现有方法总在 "妥协":要么依赖预先扫描的 CAD 模型(现实中根本找不到那么多),要么需要多视角图像(实时场景 中哪来得及拍),就算是单视图重建,也会陷入 "不知道物体真实大小" 的尺度模糊困境。 这就导致了鲜明的能力断层:VLA 能靠视觉规划完成 "叠毛巾" 这类不依赖精准空间定位的任务,却在 "抓陌生物体" 这类需要 6D 位姿支撑的操作上寸步难行。 根本原因在于, 仅凭 RGB 视觉和语言指令,无法构建 "生成模型-真实物体-空间姿态" 的闭环关联 ——而机器人与物理世界的交互,恰恰依赖这种精准的空间 感知。 基于此背景,由北京智源研究院、清华大学、南洋理工大学等机构联合提出的 OnePoseViaGen,给出了一套颠覆性解决方案:它不需要预设 3D 模型,仅凭一张 参考图,就能通过 "单视图 3D 生成 + 粗精对齐 + 文本引导域随机化" 的组合拳,完 ...
某新势力智驾组织架构即将迎来重大调整...
自动驾驶之心· 2025-09-14 00:04
公司组织架构调整 - 智驾组织架构将迎来重大调整 新部门正在敲定人员[2] - 多位元老级部门负责人相继离职 包括选择科研院校 筹备具身方向创业 继续在业内拼搏的核心人物[2] - 组织架构由原先四个二级部门划分为十个二级部门 结构更扁平 提供更多晋升机会[2] 技术路线分歧 - 业内对下一代量产方案技术路线出现明显分歧 VLA和世界行为模型(WA)两个流派争论激烈[2] - 公司声称中国真正做出VLA的只有自家企业 质疑其他公司仅做出"变形VLA"或"嫁接VLA"[2] - 世界行为模型(World-Action)被视为实现自动驾驶的终极方案 认为VLA路径取巧但非最终解决方案[4] 行业地位与影响 - 公司智驾方案去年取得巨大成功 跃升为业界标杆 多家企业跟随其方案[2] - 内部核心人物身价暴涨 遭遇其他公司高价挖角[2] - 组织架构调整旨在应对VLA量产优化 新车销量提升和外部环境变化等挑战[4] 人员变动与晋升 - 高管职位空缺成为竞争焦点 有限职位无法满足下属晋升需求[2] - 架构调整后形成更扁平化组织 为更多人员提供上升机会[2]
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-05 07:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
理想郎咸朋分享对VLA里语言部分的作用
理想TOP2· 2025-09-04 10:32
文章核心观点 - 语言能力是自动驾驶系统认知理解与决策规划的核心 语言在VLA架构中承担对视觉感知内容的认知理解并形成行动规划和决策 而非仅作为交互界面的文字输出或语音输入[1][2] - VLA架构在L3/L4高阶自动驾驶阶段将展现显著优势 当前辅助驾驶任务简单时与其他方案差异不明显 但在复杂AGI任务中预计将获得碾压性胜利[2] 技术架构解析 - VLA架构由三部分组成 V代表视觉感知 L代表语言能力 A代表动作执行 其中L核心功能是通过人类语言数据学习进行隐式逻辑推理[2] - 语言能力本质是认知框架 语言塑造和限制人类对世界的认知、理解与表达能力 不同语言体系形成差异化认知框架 这是人类与动物的关键区别[1] 技术实现路径 - L语言部分不依赖显式文字推理 而是通过语言数据学习实现隐式逻辑推理 背后核心是长思维链推理过程 文字输出与语音输入仅为可选交互方式[2] - 自动驾驶系统类比人类认知优势 人类视觉不如鹰 行动速度不如猎豹 但凭借语言衍生的认知理解能力成为地球主导物种[2]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
理想汽车-W(02015.HK):反转押注I6表现 有待经营优化、VLA优势赋能
格隆汇· 2025-09-01 19:08
财务预测与估值调整 - 2025-2027年收入预测下调至1209亿元/1544亿元/1828亿元 同比增速-16.3%/27.8%/18.3% [1] - 同期Non-GAAP净利润预测下调至59亿元/94亿元/135亿元 [1] - 当前市值对应2025-2027年PS为1.5倍/1.2倍/1.0倍 PE为30.5倍/19.3倍/13.6倍 [1] 2025Q2业绩表现 - 季度收入302.5亿元 同比下滑5% 环比增长17% [2] - 季度交付11.1万辆 ASP环比下滑0.6万元至26.0万元 [2] - 毛利率环比下降0.4个百分点至20.1% 其中汽车毛利率降至19.4% 服务毛利降至33.5% [2] - Non-GAAP净利润14.7亿元 同比下滑2% 环比增长45% 单车净利约1.3万元 [2] - 研发和销售管理费用率分别环比优化1.1/0.8个百分点 其他营业收益环比增长2.9亿元 [2] 产品与战略布局 - 2025年9月增程全系AD Max车型升级VLA 推送含"小理师傅"的完整版及指挥功能 [3] - 2026年自研芯片上车 目标2027年实现L4级智能驾驶 [3] - i8车型目标在9月实现累计交付0.8-1.0万台 [3] 短期业绩指引与挑战 - 2025Q3收入指引248-262亿元 交付指引9.0-9.5万辆 [3] - 季度毛利率预计维持在19%左右 [3] - 下半年面临国补不确定性及销售体系改革磨合压力 [3] - 全年销量表现取决于i6车型能否驱动交付势能反转 [1][3]
理想汽车郎咸朋:有了VLA之后,MPI能提升一个数量级
21世纪经济报道· 2025-09-01 18:59
公司技术进展 - 理想汽车智驾负责人朗咸朋在成都车展宣布VLA技术将使MPI(智驾平均监管里程)提升一个数量级至1000万公里 [2] - 公司计划在2026年8月前实现该技术目标 [2] 行业活动动态 - 2025年成都车展于8月29日举行 行业展示最新智能驾驶技术成果 [2]
李想目前对AI兴趣远大于汽车硬件维度产品细节打磨
理想TOP2· 2025-09-01 15:50
李想个人兴趣与产品方向 - 李想个人兴趣明显偏向AI而非汽车硬件产品细节打磨 [1][4] - 李想强烈要求双Orin芯片运行VLA(视觉语言行动模型)并推动技术突破 实现Orin芯片运行VLM(视觉语言模型)和VLA [5] - 理想团队与英伟达合作魔改CUDA底层并重写PTX底层指令 实现Orin芯片运行大模型 [5] 产品开发决策细节 - L9二排电视与冰箱交互逻辑由李想主导提出 理想ONE产品细节几乎全部由李想主导定义 [3] - 焕新L9双腔双阀由产品线负责人老汤哥坚持 李想本人倾向双腔单阀方案 [3] - MEGA Home二排21.4寸LCD屏幕由老汤哥坚持 李想倾向更小画质更好的OLED屏 [3] - MEGA Home座椅旋转方案中 李想主张45度旋转 老汤哥主张90度旋转并坚持二排同时具备旋转与零重力功能 [3] 技术突破与硬件规划 - 理想已实现Orin芯片运行VLM和VLA模型 突破英伟达最初认为不可能的技术限制 [5] - 搭载Thor芯片的车型均可更换理想自研自动驾驶芯片 Orin芯片更换可能性尚未明确 [5] - 技术团队通过重构PTX底层指令(类比汇编语言)和魔改CUDA底层实现芯片算力突破 [5] 产品策略调整 - i8车型后续可能改为单一配置加少量选配 该调整可能由李想主导 [3] - i8砍SKU策略属于减法式产品调整 与硬件增量细节打磨形成对比 [3] 市场与产品价值定位 - 短期3个月内AI产品使用价值难以跨越鸿沟至早期大众 仍处于早期采用者阶段 [1] - 理想产品情绪价值当前在大众层面处于较低水平 [1] - AI模型即产品 好的AI产品等同于好的AI模型 构成长期产品价值根基 [1]
何小鹏回应:与特斯拉市值差50倍合理吗?劝雷军造车是“害”他吗?
36氪· 2025-08-28 17:43
产品战略与定位 - 新P7全系标配Ultra配置 定位为品牌图腾产品 强调简单纯粹和尖端特性[3] - 新P7驾控体验突出 试驾中驾驶比例最高 具备肾上腺素分泌级别的操控加速感[5] - 销量目标设定为纯电动轿车市场前三 产能准备按前三标准推进 重点在于三个月后销量稳定性[4][13] - 产品定义侧重颜值与科技属性 MONA 03在价格区间具备断档领先的智能辅助驾驶能力[15] 技术研发与投入 - VLA(视觉语言行动)技术仅小鹏实现真正落地 需多维非结构化数据建模 年投入约50亿元[16][18] - VLA与VLM(视觉语言模型)协同发展 VLA为快模型(小脑) VLM为慢模型(大脑) 年底将形成双模型共识[20][22] - 端到端方案为二维结构化逻辑 VLA要求体验提升10倍才达标 技术分化将导致明年阵营重组[18][19][22] - GPU总量超3万个 混合使用英伟达与国产芯片 云端与本地端推理算力大幅提升[24] 成本结构与盈利展望 - 新能源汽车三电系统占成本40%-50% 传统10万台年销量盈利模型不适用[7] - 软硬全栈自研与跨域融合构成差异化优势 预计一至两年内收回历史亏损[10] - 五年后汽车公司将厚积薄发 实现高盈利 现阶段积累研发制造与质量能力[7][10] 市场竞争与估值 - 与特斯拉产品相似但市值差50倍 中国科技公司估值普遍为美国同行的1/7[26] - Robotaxi计划半年内上线 预计将改变市场价值认知[26] - 硬件叠加软件的实体科技公司具备规模效应 挑战高于纯软件企业[27] 技术演进路径 - 智能驾驶从单体智能向2026年群体智能演进 当前布局已延伸至2027-2028年规划[10] - VLM增强隐私保护 数据可完全不上网 保障网络异常或公司退出后的车辆正常运行[24][25] - 技术投入需长期基础性投入 短期取巧方案无法持续领先[22] 产能与供应链 - 模块化提升产能能力 后续造车企业产能准备更充分[4] - 一代P7销量约20万辆 模具与研发费用通过互联网式一次性摊销[7] 产品差异化逻辑 - 电车与油车成本结构差异 SUV因风阻与质量导致电池成本增加[11] - 同平台车型定价差异源于产品定位而非成本倒挂[11] 行业生态认知 - 造车被形容为永不停止的马拉松 需应对全方位竞争 与互联网行业天然壁垒形成对比[30][32] - 小米造车具备互联网软硬件基因 与智能汽车高度关联[35]
速度提升3倍,CoT推理助力VLA!ECoT-Lite:融合具身机器人推理改善策略的几种机制
具身智能之心· 2025-08-27 08:04
具身思维链推理(ECoT)方法 - 具身思维链推理(ECoT)通过将机器人动作预测分解为中间推理步骤(如物体位置识别、子任务规划或可操作性预测)来提升策略泛化能力,无需额外收集机器人演示数据 [3] - ECoT方法显著提高策略对新场景、新物体和新任务指令的泛化能力,但伴随训练数据需附带详细推理指令以及推理速度较慢的成本(单次动作预测需几秒钟) [3] ECoT-Lite优化方案 - 提出ECoT-Lite轻量替代方法,包括推理预训练、推理丢弃和推理支架等变体,避免常规链式思维推理的缺点同时保留大部分泛化好处 [6][8] - ECoT-Lite在LIBERO模拟基准上取得最先进性能(准确率约90%),在BridgeData V2评估中超越最先进传统VLA模型10-19%,推理速度从1-1.2Hz提升至3.5Hz以上 [8][54] 性能机制假设与验证 - 假设1(表征学习):推理步骤改善模型内部表征,使策略关注推理要求预测的特征;推理预训练和推理丢弃方法显著提升性能(LIBERO上推理丢弃达89.4%准确率) [24][54][63] - 假设2(学习进程):推理作为隐式学习课程,帮助模型从简单任务逐步过渡到完整动作预测;推理支架方法对基线性能有小幅提升(+2.9%) [26][87] - 假设3(表达能力):增加token序列长度增强模型表达能力;但思考标记(thinking tokens)方法反而降低性能(平均下降3.8%),表明主要好处来自语义推理而非计算资源扩展 [28][88] 实验环境与结果 - 在LIBERO-90和BridgeData V2环境中评估,要求策略超越训练数据泛化;LIBERO-90包含90个任务,BridgeData V2评估包括任务分布内泛化、运动泛化、空间关系和未见物体 [41][42] - 完整ECoT在LIBERO-90上达90.8%准确率,推理丢弃达89.4%,推理预训练达87.1%;在BridgeData V2上,ECoT仍是最优但ECoT-Lite速度提升约3倍 [54][58][61] 方法选择建议 - 完整ECoT最大化性能但推理速度慢(1-1.2Hz);推理丢弃在少任务领域表现优异且支持测试时灵活开启推理;推理预训练在多样化任务领域更有效且不需要成对推理-动作数据 [90][92] - 推荐使用完整ECoT追求最高性能,推理丢弃用于少任务领域或需测试时推理,推理预训练用于多样化任务领域或有无配对数据场景 [92] 局限性 - ECoT-Lite仍需机器人推理训练数据,其提取可能困难且昂贵;策略表达能力可能不是VLA瓶颈,思考标记方法未改善性能 [93] - 实验保持策略架构、训练超参数和推理语料库不变,未来可优化推理预训练以支持跨本体推理迁移,减少对成对数据依赖 [93]