理想VLA
搜索文档
告别2025!业内头部公司2025年硬核工作总结(地平线/理想/英伟达等)
自动驾驶之心· 2026-01-06 17:17
行业年度回顾与趋势 - 2025年是自动驾驶从“预研舒适区”走向“落地深水区”的一年,技术关键词从BEV感知、多传感器融合等走向成熟,转向端到端、VLM/VLA、世界模型等成为大众视野的新焦点 [2] - 前装智驾在2025年走向成熟,消费者质疑声减少,行业共识为“智驾这事,能成” [3][4] - 智能电动汽车产业的竞争已进入决赛阶段,技术升级迭代节奏加快,市场竞争压力加大 [21] - 2026年,L2级智能驾驶将告别技术飞速狂飙的时代,进入下沉攻坚期,同时针对L3的探索将渐入大众视野,L4也将迎来新一轮的规模破局 [22] 主要公司动态与成果 地平线 - 2025年打了一场漂亮的翻身仗,其HSD(Horizon Super Driving)方案直接破圈,展示了端到端方案的高上限 [9] - 在端到端、闭环训练、强化学习、世界模型和轨迹建模等领域研究深入,引领行业落地方案发展 [9] - 智驾研发团队已超过1000人,同时内部布局具身智能 [9] 小米汽车 - 小米智驾是2025年发展最快的,在四年时间内于新能源红海赛道杀出重围,年底发布了HAD增强版 [9] - 智驾迭代速度极快:从2024年3月的高精地图高速NOA,到2024年5月的城区NOA,2024年10月的轻图/无图版本,2025年2月的300万clips端到端版本,2025年7月的1000万clips版本,直至近期推出的世界模型版本 [10] - 沿着智能驾驶1.0规则驱动、2.0数据驱动、3.0认知驱动的三个阶段稳步扩展,未选择跳代研发 [10] - 2025年智驾研发团队突破1000人,预计2026年规模更上一层楼 [11] 理想汽车 - 自2024年端到端+VLM双系统量产以来,已跻身国内智驾第一梯队,在学术和量产方案上保持领先,是主推VLA量产的中坚力量 [13] - 公司处于增程转纯电、汽车转AI的转型阶段,但年度目标销量完成了58.05% [13] - 在智驾技术探索上提出了TransDiffuser、World4Drive、ReflectDrive等多个引起业内讨论的方案,覆盖前沿技术领域,并提出了从“数据闭环到训练闭环”的下阶段方向 [13] 小鹏汽车 - 2025年触底反弹,销量从2024年的19万辆翻倍至近43万辆,顺利完成全年目标 [14] - 凭借VLA 2.0顺利破圈,其核心逻辑是拆掉离散化的语言输出以提升效率,并实现自监督以大规模使用数据 [14] - 2025年基本all in量产,学术论文产出不多 [15] 博世汽车 - 作为国际Tier1巨头,被国内智驾飞速发展卷到,正猛抓预研和量产两条线 [16] - 在量产方面投入更多资源落地一段式端到端,并在闭环仿真(如DGS,NeurIPS 2025)和视觉基础模型(如DINO-R1)等方面有投入 [16] - 相比去年成果颇丰,大方向上跟上了前沿脚步并开始打造自己的特色 [16] 特斯拉 - 在ICCV 2025上的分享引起国内热情,整体仍沿用端到端范式 [19] - 亮点包括引入前馈GS极大提升闭环仿真能力,以及引入Language辅助Action输出 [19] - 在端到端和VLA、静态感知等方面有系列工作,如DiffVLA、AnchDrive、SparseMeXT等 [18] 英伟达 - 野心不局限于硬件公司,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道产出多篇重量级工作 [20] - 主要系列包括:Cosmos系列(世界基础模型平台)、Nemotron系列(为代理式AI打造的“数字大脑”)、具身系列(GR00T N1和Isaac Lab)、以及自动驾驶系列(如Alpamayo-R1自驾VLA框架) [25] Waymo - 作为全球L4级自动驾驶领军企业之一,其基座模型进展显示在follow国内的快慢双系统端到端方案,与理想E2E+VLM及小鹏VLA2.0有相似之处 [20]
理想提出首个包含自车和他车轨迹的世界模型
理想TOP2· 2025-11-23 19:56
技术模型创新 - 公司首次提出包含自车和他车轨迹的驾驶世界模型,旨在更逼真地模拟自车与驾驶场景的交互,并能通过改变自车-他车轨迹生成多样化的新颖场景[1][8] - 为解决缺乏交互性、特征分布不匹配和空间映射困难三大缺陷,公司提出EOT-WM模型,将轨迹点投影到图像坐标系并在空白视频上绘制轨迹,生成用于学习的轨迹视频,实现统一视觉模态[6] - 采用时空变分自编码器对场景视频和轨迹视频进行编码,获得共享特征空间的场景视频隐变量和轨迹隐变量,确保时空对齐[7] 模型架构与训练 - 预训练阶段在云端训练32B视觉语言基座模型,包含3D视觉、高清2D视觉以及驾驶相关语料,随后蒸馏成3.2B的MoE模型以适应车端算力[1] - 后训练阶段引入action将模型转化为视觉语言行动模型,参数量接近4B,采用短链条思维链并利用扩散模型对未来4-8秒的轨迹和环境进行预测[1] - 强化学习阶段包含人类反馈强化学习和不依赖人类反馈的纯强化学习,基于舒适性、无碰撞、遵守交规三大指标自我进化,目标驾驶水平超越人类[1] 模型控制与评估 - 设计注入轨迹的扩散Transformer,将轨迹隐变量提供的运动引导集成到视频隐变量中,以便更精确地对噪声视频隐变量进行去噪[7][9] - 整个模型可在文本和轨迹控制下基于给定初始帧预测未来帧,并提出基于控制隐变量相似度的指标用于比较预测轨迹隐变量与真值轨迹隐变量[7][9] - 与GEM模型和英伟达Cosmos模型对比,指出GEM模型使用未来物体特征和人体姿态不切实际,Cosmos模型参数量达70亿以上且推理训练成本高昂[5] 研究进展与发布 - 驾驶世界模型论文第一版于2025年3月12日发布,AAAI 2026会议录用版于2025年11月19日发布[2] - 论文第三版于2025年7月31日发布,新增作者并担任项目负责人,同时移除另一位作者,增加对GEM模型和英伟达Cosmos模型的讨论[5] - 论文第四版主要根据AAAI排版要求进行微调和双栏排版,各项量化实验结果与第一版保持一致[5]
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 11:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想TOP2· 2025-11-04 21:33
VLA技术发展路线图 - 短期目标是在2025年底至2026年初搭建出训练的强化闭环,目标是让用户体验到车辆“活”了的感觉,实现持续成长 [1] - 中期目标是通过强化闭环在中国市场超越特斯拉,核心优势在于拥有比特斯拉更便利的闭环迭代环境 [1] - 两年周期内,VLA结合强化学习将引发业务大变革,预计2025年开始,经过2025-2026两年迭代,到2027年将形成企业真正的护城河,即整个业务流程的变革能力而非单一的模型、数据或芯片 [1] - 远期目标是利用VLA技术实现L4级别自动驾驶,并预期未来还会有新技术出现 [1] 强化闭环系统的工作机制与价值 - 强化闭环系统能自动识别问题,如用户接管、驾驶顿挫、急刹车等,自动收集问题数据并回传进行强化训练,完成迭代后上线,实现自我优化 [2] - 该能力被视为未来自动驾驶运营商的核心立足点之一,但可能不构成严格的护城河,因为最终可能有多家主体掌握自动驾驶技术 [2] 对VLA技术路径的倾向性看法 - 认为驾驶所需的智能程度相对较低,以目前大语言模型展现的智能水平足以应对自动驾驶,主要需解决时延问题 [3] - 业务流程改革完成后,经过1-2年时间,能更清晰界定车端算力与模型参数量需求,倾向于需求不会太大,给出的锚点是车端1000或2000 TOPS,云端32B参数模型,并认为将320B模型蒸馏成4B很不合适 [3] - 存在一种观点认为,在遇到明显瓶颈期前,算力和参数量整体上是越大越好,这与“the bitter lesson”的核心思想一致,即充分利用算力的通用方法最终会胜出 [3] 技术方法论与行业趋势 - DeepSeek的方法在浅层上通过更好的方法降低了对算力的需求,但深层内核符合“the bitter lesson”,其方法本身是通用的元方法,可通过增加算力提升性能 [4][5] - 自动驾驶领域的前进方向符合“the bitter lesson”,任何试图将人类对世界的理解硬编码到算法中的尝试大概率会被淘汰 [5] - 理想团队认为华为的W Engine与其所说的世界模型概念相似,而其他友商关于世界模型的讨论仍停留在模型本身层面 [9] 公司领导力与战略决策 - 公司CEO在2025年2月底提出加快交付VLA,其判断基于模仿学习本质不具备人类智能 [6] - CEO与校招生保持每月一次沟通,与自动驾驶负责人之间建立了基于信任的默契和并肩作战的基础 [6] - 公司管理强调“关注人不关注事”,团队内部的双向信任是公司能够调整价值观稀释问题的基础 [6] 智驾部门组织架构调整 - 智驾团队的核心护城河被定位为业务体系而非个人,部门现设有11个二级部门,负责人均具备业务背景而非纯管理出身 [7] - 核心管理者倾向内部培养,而Research/算法研究人才可从外部引进 [7] - 具体部门调整包括将原模型算法团队拆分为基础模型部、VLA模型部和模型工程部等,并新增创新业务部 [7] - 取消封闭开发模式,原因包括追赶者收益降低以及体现员工关怀,公司高层可能已形成阶段性共识需提高员工关怀 [7] - 部门负责人自述团队经历了三代骨干更迭,当前为新班子主导 [7] 对竞争对手的评价与定位 - 团队非常关注特斯拉FSD V14的进展,并计划在美国进行实车体验,认为特斯拉Ashok在ICCV 2025上的演讲与理想VLA理念高度一致 [8] - 回应博世不看好VLA的观点,指出博世不自研基座模型且缺乏大模型相关工作经验,数据量不大,并认为可通过强化学习和超级对齐解决模型幻觉问题 [9] - 针对华为的观点,强调在完成端到端过程中发现corner case数据收集的核心在于数据分布和质量,需要系统具备人类思维推理能力,并认为反对VLA的声音恰恰证明了VLA方向的正确性 [9] 公司运营与资源规划 - 公司战略分析法的核心是认知决定战略,战略决定业务,业务决定组织和资源 [12] - 2024年公司云端算力为8 EFLOPS,价值约10亿人民币数量级,当前推理算力与训练算力投入各占一半被认为比较合理 [11] - 公司正在研发42B参数的云端模型,并希望云端模型参数量不要过大 [11] - 对于自研自动驾驶芯片,策略是如果一颗芯片效果不佳,就采用两颗芯片的方案 [11] - 预测到2027年行业可能不再使用MPI作为核心评价指标 [11] - 2023年公司主基调是扩招,但自动驾驶负责人认为团队规模不需过大,比特斯拉团队多一些即可 [11] - 自动驾驶负责人将50%精力投入短期日常管理事务,30%投入中长期战略规划,20%投入技术和业务进展 [11]
和一些人交流后, 更深入的分析地平线HSD
自动驾驶之心· 2025-11-04 08:03
文章核心观点 - 地平线HSD工程版软件在特定场景下体验优异,1.5小时杭州西湖试驾表现明显优于理想L7 VLA截至2025年10月的量产版本,全程除1次三点掉头外0次接管 [3][5] - 自动驾驶技术路径存在差异,地平线采用VA式端到端,理想采用VLA式端到端,两者均为基于各自情况的最优解 [3][9][10] - 单一或几次试驾体验不足以评估辅助驾驶系统的全国泛化能力,网上正面评价可能不够全面 [3][7][8] - 20万元以上市场除华为外,主机厂需具备自研自动驾驶能力才能生存,该能力是区分点而非直接卖点 [3] 地平线人员印象及HSD试驾体验 - 接触到的3位地平线人员均表现诚实、实事求是,主动阐述系统在极端天气、非标场景及复杂博弈下的不足 [3][4] - A车型搭载的地平线HSD工程版软件在安心感、舒适感、丝滑度、时延及堵车启停舒适度方面表现不错,明显优于理想VLA量产版 [3][5] - 不同车型(A车型与B车型)的HSD体验差异显著,与芯片算力及车企配合度有关 [5] - 业内人士D认为HSD在纵向控制上相当不错 [6] 技术路径分析:VA式端到端 vs VLA式端到端 - VA式端到端(地平线采用)有特斯拉FSD作为成功标杆,潜力可挖,现阶段在部分用户体验方面有优势,是地平线基于自身基础与商业方向的最优解 [3][10][12] - VLA式端到端(理想采用)对算力、带宽需求明显更高,缺乏成熟体验参考,是理想做出的有勇气的决策,若成功可带来长期竞争优势 [3][12] - 理想面临架构转化过渡期,2025年11月版本体验或有改善,但长期需解决VLA对算力、带宽的更高需求 [3][12] 行业竞争格局观点 - 20万元以上市场,除华为外,主机厂需自研自动驾驶能力,否则将被淘汰,该能力是综合组织能力的体现 [3] - 自动驾驶本身是能力区分点,其边际成本低的特性将导致行业集中度高 [3]
和一些人交流后, 更深入的分析地平线HSD与理想VLA
理想TOP2· 2025-11-02 17:08
地平线HSD软件体验评估 - 在杭州西湖进行的1.5小时A车型试驾中,地平线HSD工程版软件体验被认为明显优于理想L7 VLA截至2025年10月的量产版本 [2] - 试驾过程除1次三点掉头外0次接管,在安心感、舒适感、丝滑度、时延及两车道堵车情形下的连续启停舒适度方面表现不错 [7] - 地平线人员坦诚指出HSD在极端天气、非标场景、复杂博弈下表现一般,并估计其水平约为特斯拉FSD V13的60% [5][7] 不同技术路线对比:VA式端到端 vs VLA式端到端 - 地平线采用VA式端到端技术路线,而理想采用VLA式端到端技术路线 [3][9] - VA式端到端以特斯拉FSD为标杆,已有不错实际体验参考,对算力和带宽需求相对较低,路线稳妥性更强 [10] - VLA式端到端对算力、带宽需求明显更高,且缺乏已验证的实际体验作为参考,是理想基于自身情况做出的有勇气的战略选择 [3][10][14] 技术体验的局限性与泛化挑战 - 单次或几次试驾体验无法评估软件在全国不同城市的泛化能力,大规模全量数据下的安全性评估门槛很高 [2][8] - 同一软件在不同城市表现存在差异,小批量测试与大批量应用暴露问题的可能性不同,当前积极评价可能不够全面 [8] - 不同车型的体验差异显著,A车型的HSD工程车辅助驾驶能力很不错,而B车型的HSD工程车表现很一般,这与芯片算力及车企配合度有关 [7] 主机厂自动驾驶战略选择与行业格局 - 理想面临三种战略选择:侧重VA式端到端、两者均衡投入、或核心资源投向VLA式端到端,每种选择各有优劣 [12][13] - 行业观点认为,20万元以上市场除华为外将是主机厂自研自动驾驶的天下,缺乏自研能力的主机厂将被淘汰 [4] - 自动驾驶本身不是卖点,而是能力区分点,其低边际成本的特性天然导致行业集中度高 [4]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 11:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
地平线HSD的确值得理想留意
理想TOP2· 2025-10-27 21:50
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型的地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA在2025年10月的量产版本 [1][2] - 试驾路线为自选,除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面表现均很出色 [2] - 地平线HSD技术架构为以车端视角信息输入、输出轨迹的VA式端到端,云端有语言介入,认为串联式VLA对算力带宽要求过高,VA式端到端尚有潜力可挖 [1] 与理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时理想L7和i6的量产版本 [1] - 试驾地平线HSD过程中几乎没有通过调整滚轮调整速度的欲望,而使用理想VLA时则经常有此欲望 [2] - 难以直接判断2025年10月体验的HSD工程车与2025年8月体验的理想i8 VLA工程车孰优孰劣 [1] 地平线方案表现差异与团队沟通 - 不同车型搭载地平线HSD的表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型工程车表现很一般,差异原因包括芯片算力不同以及主机厂配合度 [2] - 地平线智驾团队沟通诚实度高,主动详细说明方案在极端天气、非标场景、复杂博弈、必须加塞导航等场景下体验一般的局限性 [3] - 地平线相关人员非严谨评估其HSD方案可能达到特斯拉FSD V13约60%的水平 [3] 人机交互与主机厂合作 - HUD和车机构成智驾体验重要部分,但地平线与主机厂合作中,车机与智驾适配高度尊重主机厂意见,导致部分设计如SR界面位置、导航目的地更改按钮不符合直觉 [3]
AI应用公司负责人分享对理想VLA的理解
理想TOP2· 2025-09-13 19:50
VLA技术核心价值 - VLA核心价值在于获取有效数据 用于训练基础模型和个人记忆模块 包括驾驶习惯和常用道路等数据 [2] - 每个车辆具备自我进化能力 无需OTA升级即可通过持续训练提升VLA表现 实现"越用越聪明"的效果 [2] - 记忆模块通过采集用户语音指令 行驶道路 接管行为 常用地点等数据 持续升级并调用最新数据优化自动驾驶体验 [12] 实际应用效果 - 车辆使用初期表现较差 但第三天即可实现道路行驶丝滑度提升 包括未行驶过道路和原本无法识别的停车位自动泊车功能 [3] - VLA系统通过克隆车主驾驶行为 实现专属司机"小李师傅"的个性化服务体验 [4] - 建议用户单独训练VLA系统 一周时间即可达到良好使用效果 [8] 数据处理机制 - VLA与记忆模块分离 采用LLM处理后的数据库 数据进行token化总结后存储 使用时再读取处理 [10] - 系统存储约1万token数据量 10token精准数据对个体驾驶体感控制更具价值 相比1000万clips中仅10%有效数据更具针对性 [14] - 记忆功能需要短期和长期记忆结合 采用外挂LLM总结历史使用行为作为context实现大模型个性化 [13][19] 企业战略布局 - 通过私有化去中心化的个人专属记忆数据结合AI基础设施和多形态硬件 形成以家为中心的战略布局 [6][20] - 账户迁移功能类似Apple ID战略 通过积累记忆模块数据增强用户依赖度而非依靠生态应用分发盈利 [5][19] - 需要软件 硬件 产品三合一能力 依赖自主研发芯片的算力和精准数据积累 用户规模越大价值越高 [20][22][23] 行业技术地位 - 目前同时做好记忆模块和VLA结合的企业只有理想 华为需等待WA技术 地平线需要主机厂解决车机能力 [15] - 持久性记忆技术被红杉资本列为关键投资主题 是实现AI从工具进化为长期智能伙伴的核心技术 [16][25] - 多模态VLA模型中实现记忆功能并根据记忆实时变更车端模型 形成定制化私人司机存在较大技术难度 [25]