VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧
理想TOP2·2025-10-25 13:21
本文参考了微博用户本诺、大雁jassy,知乎用户刘斯坦的观点。 本文核心4个观点: 1. 很多人不知道实际上VLA/世界模型/端到端其实压根就没有一个公认的怕他性定义。 2.头部智驾车企在自动驾驶探索上共同性的部分大于互联网上营造出来的差异性。内核 是宣传分歧, 不是技术路线分歧。 3.语言在自动驾驶上的作用是长推理/用户交互价值观对齐/理解世界。 4. 越认为predict the next token不只是概率分布的人,越容易认可语言可以理解世界。 以下为更细化论述: VLA/世界模型/WA/端到端的共同点是都指向需要具备生成看起来和真实世界的一样的道路视频数据 的能力,都指向是视觉信息进入(不区分是否是纯视觉),最终要能控制车辆行动。 区别点在于语言在其中是否参与,参与深度,以什么架构形式参与,将来语言相关的token是目前 LLM的text token,还是潜在的photon token。 目前互联网上充满着好像VLA/世界模型/端到端是不同技术路线,选了A就不能选B的氛围。特斯拉公 布一个自己关于自动驾驶的思考,大量人就急于去判定这个是不是VLA,如果是,就说明理想路线 是对的,如果不是,就不对。 ...