文章核心观点 - 理想的VLA是自动驾驶的最佳模型方案 其本质是生成式模型 通过生成轨迹和控制信号来实现自动驾驶 在某些场景下已表现出对物理世界的认知涌现和拟人行为 [1][2] - 具身智能最终比拼的是整体系统能力 自动驾驶应被视为一个完整的具身智能系统 需要感知、模型、操作系统、芯片、本体等各部分全栈自研与协同 才能发挥最大价值 [1][3] - 在模型与系统适配的基础上 数据是起决定意义的 理想汽车凭借数百万辆车构建的数据闭环 能够获取海量、高质量的真实驾驶数据 这是其技术路线的核心优势 [1][2][4] VLA模型方案 - VLA本质是生成式模型 采用类似GPT的方式生成轨迹和控制信号 而非文本 已观察到模型在某些场景下出现认知涌现 表现为端到端模型之前没有的拟人驾驶行为 [2] - 世界模型更适合作为“考场”而非“考生” 其高算力需求使其更适合在云端进行数据生成、仿真测试和强化训练 理想正利用数E FLOPS的推理算力进行仿真 [2] - 模型架构之争需结合实际效果 在自动驾驶领域 脱离海量真实数据空谈模型架构是空中楼阁 理想坚持VLA路线是因为其拥有数百万辆车构建的数据闭环 能在当前算力下将驾驶水平做到接近人类 [2] 具身智能系统能力 - 自动驾驶应被视为完整的具身智能系统 需要像人类一样 实现感知(眼睛)、模型(大脑)、操作系统(神经)、芯片(心脏)、本体(身体)等各部分的相互协调 [3] - 实现系统价值需要全栈自研 不仅仅是软件栈 而是整体软硬件全栈 理想的自动驾驶团队与基座模型、芯片、底盘团队协同打造了整个系统 [3] - 底盘协同是系统能力的体现 例如车辆运动管理模块会对自动驾驶控制信号做精细化调校 区分卡钳制动和液压制动策略 以兼顾安全性与舒适体验 实现“身体”与“大脑”的协同 [3] 数据的关键作用与优势 - 数据获取在自动驾驶领域具备优势 对于已建立数据闭环能力的车企而言 获取数据并非难题 这与使用数据采集车获取的数据在质量和分布上有很大差距 [4] - 公司拥有海量、高质量的真实驾驶数据 不仅可以从过去几年积累的超过10亿公里的存量数据中挖掘筛选 更能通过超过150万车主的日常使用源源不断获取新数据 [4] - 数据筛选反映真实人类行为 在筛选数据过程中发现接近40%的人类驾驶数据存在偏一侧开车或不严格卡限速的行为 这些数据被保留 使得模型能学习到更符合人类习惯的驾驶行为 [4] 技术应用的未来展望 - VLA模型服务范围将扩展 该模型不仅服务于公司当前的各类汽车产品形态 也将服务于未来公司规划的汽车类具身机器人 [4]
理想郎咸朋长文分享为什么关于VLA与宇树王兴兴观点不一致