VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧

自动驾驶技术路线定义与共识 - VLA/世界模型/端到端等技术路线缺乏公认的排他性定义，其共同点是要求模型具备生成与真实世界一致的道路视频数据的能力，并以视觉信息为输入最终控制车辆行动 [1][2] - 技术路线之间的核心区别在于语言是否参与、参与深度以及架构形式，例如语言相关的token是当前LLM的text token还是潜在的photon token [2] - 不同企业宣传的VLA细节可能存在巨大差异，未来VLA与VLA之间的区别可能大于VLA与传统方法的区别 [2][3] 头部车企技术路线共性分析 - 头部智驾车企在自动驾驶探索上共同性大于差异性，内核是宣传分歧而非技术路线分歧 [1] - 理想汽车与特斯拉均认为扩散模型有利于自动驾驶，3D高斯泼溅生成世界模型优于神经辐射场，且世界模型用于评估很重要 [12] - 两家公司均认为将人类价值观编入代码极其困难，并且在输出层面，理想汽车认为输出轨迹优于直接输出油门方向盘电信号 [5][12] 语言在自动驾驶中的作用与潜力 - 语言在自动驾驶中的作用主要体现在长推理、用户交互价值观对齐以及理解世界 [1] - 对“预测下一个token”的理解分歧影响对LLM潜力的判断，越认为其不只是概率分布的人越认可语言可以理解世界 [1][12] - OpenAI联合创始人Ilya Sutskever认为，足够好的下一个token预测意味着模型理解了token产生的潜在现实，这使其可能推断出超越已有数据范围的高智慧行为 [13][15][17] 端到端架构的具体实现探讨 - 端到端缺乏公认的排他性定义，传感器信号进、输出轨迹亦可称为端到端，在此定义下理想汽车的VLA架构符合端到端特征 [5][7] - 有观点认为特斯拉端到端模型实际输出的是轨迹而非油门方向盘电信号，依据包括跨车型适配的冗余设计问题及特斯拉高管在公开场合的模糊回应 [5][6] - 特斯拉技术负责人Ashok Elluswamy在ICCV 2025上表示，端到端的核心前提是梯度必须端到端流动，输出形式是经验性问题，这进一步支持了端到端定义的宽泛性 [6] 技术演进的长远视角 - 马斯克提出长远来看AI模型输入和输出99%以上将是光子，这回应了关于DeepSeek-OCR等工作中降低计算量的潜力 [10] - VLA定义的最大公约数是输入为视觉或多模态，语言以某种形式参与，最终输出指向广义机器人动作的模型 [11] - 长远来看，可能不再使用text token来理解语言，而是采用更底层的表征方式 [10][11]