Workflow
理想VLA
icon
搜索文档
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 11:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想TOP2· 2025-11-04 21:33
VLA技术发展路线图 - 短期目标是在2025年底至2026年初搭建出训练的强化闭环,目标是让用户体验到车辆“活”了的感觉,实现持续成长 [1] - 中期目标是通过强化闭环在中国市场超越特斯拉,核心优势在于拥有比特斯拉更便利的闭环迭代环境 [1] - 两年周期内,VLA结合强化学习将引发业务大变革,预计2025年开始,经过2025-2026两年迭代,到2027年将形成企业真正的护城河,即整个业务流程的变革能力而非单一的模型、数据或芯片 [1] - 远期目标是利用VLA技术实现L4级别自动驾驶,并预期未来还会有新技术出现 [1] 强化闭环系统的工作机制与价值 - 强化闭环系统能自动识别问题,如用户接管、驾驶顿挫、急刹车等,自动收集问题数据并回传进行强化训练,完成迭代后上线,实现自我优化 [2] - 该能力被视为未来自动驾驶运营商的核心立足点之一,但可能不构成严格的护城河,因为最终可能有多家主体掌握自动驾驶技术 [2] 对VLA技术路径的倾向性看法 - 认为驾驶所需的智能程度相对较低,以目前大语言模型展现的智能水平足以应对自动驾驶,主要需解决时延问题 [3] - 业务流程改革完成后,经过1-2年时间,能更清晰界定车端算力与模型参数量需求,倾向于需求不会太大,给出的锚点是车端1000或2000 TOPS,云端32B参数模型,并认为将320B模型蒸馏成4B很不合适 [3] - 存在一种观点认为,在遇到明显瓶颈期前,算力和参数量整体上是越大越好,这与“the bitter lesson”的核心思想一致,即充分利用算力的通用方法最终会胜出 [3] 技术方法论与行业趋势 - DeepSeek的方法在浅层上通过更好的方法降低了对算力的需求,但深层内核符合“the bitter lesson”,其方法本身是通用的元方法,可通过增加算力提升性能 [4][5] - 自动驾驶领域的前进方向符合“the bitter lesson”,任何试图将人类对世界的理解硬编码到算法中的尝试大概率会被淘汰 [5] - 理想团队认为华为的W Engine与其所说的世界模型概念相似,而其他友商关于世界模型的讨论仍停留在模型本身层面 [9] 公司领导力与战略决策 - 公司CEO在2025年2月底提出加快交付VLA,其判断基于模仿学习本质不具备人类智能 [6] - CEO与校招生保持每月一次沟通,与自动驾驶负责人之间建立了基于信任的默契和并肩作战的基础 [6] - 公司管理强调“关注人不关注事”,团队内部的双向信任是公司能够调整价值观稀释问题的基础 [6] 智驾部门组织架构调整 - 智驾团队的核心护城河被定位为业务体系而非个人,部门现设有11个二级部门,负责人均具备业务背景而非纯管理出身 [7] - 核心管理者倾向内部培养,而Research/算法研究人才可从外部引进 [7] - 具体部门调整包括将原模型算法团队拆分为基础模型部、VLA模型部和模型工程部等,并新增创新业务部 [7] - 取消封闭开发模式,原因包括追赶者收益降低以及体现员工关怀,公司高层可能已形成阶段性共识需提高员工关怀 [7] - 部门负责人自述团队经历了三代骨干更迭,当前为新班子主导 [7] 对竞争对手的评价与定位 - 团队非常关注特斯拉FSD V14的进展,并计划在美国进行实车体验,认为特斯拉Ashok在ICCV 2025上的演讲与理想VLA理念高度一致 [8] - 回应博世不看好VLA的观点,指出博世不自研基座模型且缺乏大模型相关工作经验,数据量不大,并认为可通过强化学习和超级对齐解决模型幻觉问题 [9] - 针对华为的观点,强调在完成端到端过程中发现corner case数据收集的核心在于数据分布和质量,需要系统具备人类思维推理能力,并认为反对VLA的声音恰恰证明了VLA方向的正确性 [9] 公司运营与资源规划 - 公司战略分析法的核心是认知决定战略,战略决定业务,业务决定组织和资源 [12] - 2024年公司云端算力为8 EFLOPS,价值约10亿人民币数量级,当前推理算力与训练算力投入各占一半被认为比较合理 [11] - 公司正在研发42B参数的云端模型,并希望云端模型参数量不要过大 [11] - 对于自研自动驾驶芯片,策略是如果一颗芯片效果不佳,就采用两颗芯片的方案 [11] - 预测到2027年行业可能不再使用MPI作为核心评价指标 [11] - 2023年公司主基调是扩招,但自动驾驶负责人认为团队规模不需过大,比特斯拉团队多一些即可 [11] - 自动驾驶负责人将50%精力投入短期日常管理事务,30%投入中长期战略规划,20%投入技术和业务进展 [11]
和一些人交流后, 更深入的分析地平线HSD
自动驾驶之心· 2025-11-04 08:03
文章核心观点 - 地平线HSD工程版软件在特定场景下体验优异,1.5小时杭州西湖试驾表现明显优于理想L7 VLA截至2025年10月的量产版本,全程除1次三点掉头外0次接管 [3][5] - 自动驾驶技术路径存在差异,地平线采用VA式端到端,理想采用VLA式端到端,两者均为基于各自情况的最优解 [3][9][10] - 单一或几次试驾体验不足以评估辅助驾驶系统的全国泛化能力,网上正面评价可能不够全面 [3][7][8] - 20万元以上市场除华为外,主机厂需具备自研自动驾驶能力才能生存,该能力是区分点而非直接卖点 [3] 地平线人员印象及HSD试驾体验 - 接触到的3位地平线人员均表现诚实、实事求是,主动阐述系统在极端天气、非标场景及复杂博弈下的不足 [3][4] - A车型搭载的地平线HSD工程版软件在安心感、舒适感、丝滑度、时延及堵车启停舒适度方面表现不错,明显优于理想VLA量产版 [3][5] - 不同车型(A车型与B车型)的HSD体验差异显著,与芯片算力及车企配合度有关 [5] - 业内人士D认为HSD在纵向控制上相当不错 [6] 技术路径分析:VA式端到端 vs VLA式端到端 - VA式端到端(地平线采用)有特斯拉FSD作为成功标杆,潜力可挖,现阶段在部分用户体验方面有优势,是地平线基于自身基础与商业方向的最优解 [3][10][12] - VLA式端到端(理想采用)对算力、带宽需求明显更高,缺乏成熟体验参考,是理想做出的有勇气的决策,若成功可带来长期竞争优势 [3][12] - 理想面临架构转化过渡期,2025年11月版本体验或有改善,但长期需解决VLA对算力、带宽的更高需求 [3][12] 行业竞争格局观点 - 20万元以上市场,除华为外,主机厂需自研自动驾驶能力,否则将被淘汰,该能力是综合组织能力的体现 [3] - 自动驾驶本身是能力区分点,其边际成本低的特性将导致行业集中度高 [3]
和一些人交流后, 更深入的分析地平线HSD与理想VLA
理想TOP2· 2025-11-02 17:08
地平线HSD软件体验评估 - 在杭州西湖进行的1.5小时A车型试驾中,地平线HSD工程版软件体验被认为明显优于理想L7 VLA截至2025年10月的量产版本 [2] - 试驾过程除1次三点掉头外0次接管,在安心感、舒适感、丝滑度、时延及两车道堵车情形下的连续启停舒适度方面表现不错 [7] - 地平线人员坦诚指出HSD在极端天气、非标场景、复杂博弈下表现一般,并估计其水平约为特斯拉FSD V13的60% [5][7] 不同技术路线对比:VA式端到端 vs VLA式端到端 - 地平线采用VA式端到端技术路线,而理想采用VLA式端到端技术路线 [3][9] - VA式端到端以特斯拉FSD为标杆,已有不错实际体验参考,对算力和带宽需求相对较低,路线稳妥性更强 [10] - VLA式端到端对算力、带宽需求明显更高,且缺乏已验证的实际体验作为参考,是理想基于自身情况做出的有勇气的战略选择 [3][10][14] 技术体验的局限性与泛化挑战 - 单次或几次试驾体验无法评估软件在全国不同城市的泛化能力,大规模全量数据下的安全性评估门槛很高 [2][8] - 同一软件在不同城市表现存在差异,小批量测试与大批量应用暴露问题的可能性不同,当前积极评价可能不够全面 [8] - 不同车型的体验差异显著,A车型的HSD工程车辅助驾驶能力很不错,而B车型的HSD工程车表现很一般,这与芯片算力及车企配合度有关 [7] 主机厂自动驾驶战略选择与行业格局 - 理想面临三种战略选择:侧重VA式端到端、两者均衡投入、或核心资源投向VLA式端到端,每种选择各有优劣 [12][13] - 行业观点认为,20万元以上市场除华为外将是主机厂自研自动驾驶的天下,缺乏自研能力的主机厂将被淘汰 [4] - 自动驾驶本身不是卖点,而是能力区分点,其低边际成本的特性天然导致行业集中度高 [4]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 11:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
地平线HSD的确值得理想留意
理想TOP2· 2025-10-27 21:50
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型的地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA在2025年10月的量产版本 [1][2] - 试驾路线为自选,除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面表现均很出色 [2] - 地平线HSD技术架构为以车端视角信息输入、输出轨迹的VA式端到端,云端有语言介入,认为串联式VLA对算力带宽要求过高,VA式端到端尚有潜力可挖 [1] 与理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时理想L7和i6的量产版本 [1] - 试驾地平线HSD过程中几乎没有通过调整滚轮调整速度的欲望,而使用理想VLA时则经常有此欲望 [2] - 难以直接判断2025年10月体验的HSD工程车与2025年8月体验的理想i8 VLA工程车孰优孰劣 [1] 地平线方案表现差异与团队沟通 - 不同车型搭载地平线HSD的表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型工程车表现很一般,差异原因包括芯片算力不同以及主机厂配合度 [2] - 地平线智驾团队沟通诚实度高,主动详细说明方案在极端天气、非标场景、复杂博弈、必须加塞导航等场景下体验一般的局限性 [3] - 地平线相关人员非严谨评估其HSD方案可能达到特斯拉FSD V13约60%的水平 [3] 人机交互与主机厂合作 - HUD和车机构成智驾体验重要部分,但地平线与主机厂合作中,车机与智驾适配高度尊重主机厂意见,导致部分设计如SR界面位置、导航目的地更改按钮不符合直觉 [3]
AI应用公司负责人分享对理想VLA的理解
理想TOP2· 2025-09-13 19:50
VLA技术核心价值 - VLA核心价值在于获取有效数据 用于训练基础模型和个人记忆模块 包括驾驶习惯和常用道路等数据 [2] - 每个车辆具备自我进化能力 无需OTA升级即可通过持续训练提升VLA表现 实现"越用越聪明"的效果 [2] - 记忆模块通过采集用户语音指令 行驶道路 接管行为 常用地点等数据 持续升级并调用最新数据优化自动驾驶体验 [12] 实际应用效果 - 车辆使用初期表现较差 但第三天即可实现道路行驶丝滑度提升 包括未行驶过道路和原本无法识别的停车位自动泊车功能 [3] - VLA系统通过克隆车主驾驶行为 实现专属司机"小李师傅"的个性化服务体验 [4] - 建议用户单独训练VLA系统 一周时间即可达到良好使用效果 [8] 数据处理机制 - VLA与记忆模块分离 采用LLM处理后的数据库 数据进行token化总结后存储 使用时再读取处理 [10] - 系统存储约1万token数据量 10token精准数据对个体驾驶体感控制更具价值 相比1000万clips中仅10%有效数据更具针对性 [14] - 记忆功能需要短期和长期记忆结合 采用外挂LLM总结历史使用行为作为context实现大模型个性化 [13][19] 企业战略布局 - 通过私有化去中心化的个人专属记忆数据结合AI基础设施和多形态硬件 形成以家为中心的战略布局 [6][20] - 账户迁移功能类似Apple ID战略 通过积累记忆模块数据增强用户依赖度而非依靠生态应用分发盈利 [5][19] - 需要软件 硬件 产品三合一能力 依赖自主研发芯片的算力和精准数据积累 用户规模越大价值越高 [20][22][23] 行业技术地位 - 目前同时做好记忆模块和VLA结合的企业只有理想 华为需等待WA技术 地平线需要主机厂解决车机能力 [15] - 持久性记忆技术被红杉资本列为关键投资主题 是实现AI从工具进化为长期智能伙伴的核心技术 [16][25] - 多模态VLA模型中实现记忆功能并根据记忆实时变更车端模型 形成定制化私人司机存在较大技术难度 [25]
关于理想VLA新的36个QA
理想TOP2· 2025-08-13 13:10
技术架构与研发方向 - 强化学习在VLA架构中起关键作用 公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块 相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成 借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心 解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构 优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持 当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令 规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合 配合决策思考能力[6] - 高速场景研发重点在超视距问题 事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力 优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽 结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷 标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率 需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著 前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型 漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产 业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代 但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布 需与监管部门协同推进[15] - 召唤功能面临严格法规约束 能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及 高精地图方案难以满足百万级车辆需求[25]
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 21:50
自动驾驶体验对比 - 理想VLA在园区内主副驾无人场景下表现优秀 具备基于语言指令的精准控制能力 但受限于封闭环境无法验证泛化能力 [1] - 与特斯拉FSD对比 北美用户认为FSD在自然度和拟人化驾驶方面更胜一筹 接近自动驾驶水平 而理想VLA在顺义路况下仍有明显"机器感" [1] - 公开道路测试显示 在非高峰期的顺义路况下 VLA在安心感/舒适度/效率上较L系列VLM有显著提升 但窄路和村庄场景表现欠佳 [2] 核心用户体验差异 - 红绿灯刹停过程表现出色 丝滑无顿挫感 显著优于普通驾驶者和多数竞品 形成明显代际差体验 [3] - 变道/超车等常规操作难以体现差异化 但刹车品质成为最易感知的优势项 类比"老司机"驾驶水准 [4] - 语音控车功能具备路线记忆和个性化设置能力 在L4实现前可形成独特用户体验优势 [10] 技术迭代路径 - VLA采用强化学习范式 相比VLM的监督学习具备四大迭代方向:仿真数据优化/芯片算力提升/模型参数量增长/语音工程优化 [7] - 强化学习在自动驾驶领域优势显著 奖励函数明确(安全/舒适/效率) 可针对具体场景持续优化 突破模仿学习的炼丹局限 [8][9] - 当前运行4B参数模型 未来7B/14B乃至100B参数模型将带来能力飞跃 芯片算力提升是关键支撑 [7] 产品化逻辑 - 技术团队需平衡模型能力与用户体验 互联网时代产品体验优先 AI时代需兼顾技术突破与体验优化 [10] - 自动驾驶首要目标是超越80%普通驾驶者 逐步向95%水准迈进 刹车品质成为首批达标的关键指标 [4]
理想VLA的实质 | 强化学习占主导的下一个action token预测
自动驾驶之心· 2025-08-12 07:33
核心观点 - 对"predict the next token"的不同理解反映了对LLM或AI潜力与实质的不同认知 [1] - 越认为"predict the next token"超越统计学的人,越认可LLM潜力大/AI潜力大/推理过程是意识雏形/超级对齐重要 [2] - 理想VLA实质是在强化学习主导下连续预测"next action token",类比OpenAI的O1O3 [4] - 辅助驾驶比chatbot更适合采用强化学习方法 [4][24] Ilya观点分析 - Ilya作为前OpenAI首席科学家,推动了过去十年AI领域多项重大突破 [4][5] - Ilya认为"predict the next token"能超越人类表现,关键在于神经网络能推断出"理想人物"的行为 [8][9] - "predict the next token"本质是理解token产生的现实基础,而不仅是统计学 [11][12] - Ilya的思考方式非常严谨,认为预测token需要理解人类行为背后的思想、感情和想法 [12][13][17] 理想VLA技术特点 - VLA架构通过传感器输入,输出驾驶行为action token,整个过程实时发生在车端 [19] - VLA在NOA期间连续预测next action token,实质是理解现实物理世界 [20] - VLA在推理过程中具有意识特征,这种意识随NOA开启/关闭而出现/消失 [21] - 辅助驾驶比chatbot更适合强化学习,因其奖励函数更明确(安全/舒适/效率) [24][26] 行业技术差异 - AI软件与硬件开发存在本质差异:软件可快速AB测试迭代,硬件迭代较慢 [28] - AI软件内核是神经网络与权重,传统软件内核是代码 [28] - 理想在AI软件与硬件结合方面达到高水平,但行业认知不足 [29][30] - 自动驾驶技术社区活跃,涵盖大模型/VLA/端到端/感知/规划控制等多个方向 [33][35][37]