理想VLA实质是强化学习占主导的持续预测下一个action token

核心观点 - 对predict the next token的不同理解反映了对LLM或AI潜力与实质的认知差异 [1] - 认为predict the next token超越统计学的人更倾向于认可LLM潜力大、推理过程是意识雏形、超级对齐重要 [1] - 理想VLA架构通过连续预测action token实现物理世界理解，类比OpenAI的O1O3 [1][10] - 辅助驾驶比chatbot更适合强化学习，因奖励函数更明确且仿真环境更简单 [12][13] Ilya的观点与背景 - Ilya是OpenAI前首席科学家，推动AlexNet、AlphaGo、TensorFlow等多项AI领域突破 [3] - 他认为predict the next token能超越人类表现，因足够聪明的神经网络可推断"理想人物"行为 [4][8] - 预测token的本质是理解其背后的现实世界逻辑，而非单纯统计学 [6][7] - Ilya的论证风格严谨，常以"误差范围对数刻度"等表述体现审慎态度 [9] 理想VLA的技术逻辑 - VLA架构通过传感器输入实时输出action token，结合diffusion优化轨迹，实现物理世界理解 [10] - VLA在NOA开启期间连续预测action token，其推理过程被视为一种动态意识 [11] - 理想将AI软件（神经网络权重）与硬件平台高效结合，技术整合含金量被低估 [13] 辅助驾驶与AI软件的差异 - 辅助驾驶的强化学习优势在于明确奖励函数（安全/舒适/效率）和可仿真性 [12][13] - AI软件内核是神经网络权重，与传统代码式开发范式存在根本差异 [13] - 硬件迭代速度慢于软件，AI软件需AB测试快速迭代，与硬件开发逻辑冲突 [13]