如果说今年哪个方向最受欢迎，一定是VLA+RL

如果说今年哪个方向最受欢迎，一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式：机器人不再依赖精确定义的状态和规则，而是通过视觉感知环境、理解语言指令，并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛，使机器人能够应对更加开放和复杂的场景。然而，在真实机器人系统中，VLA 往往仍然面临执行不稳定、对初始状态敏感、长时序任务易失败等问题，其核心原因在于模型缺乏基于环境反馈的持续修正能力。强化学习的出现为VLA带来了新的解决思路。RL并不是一门新的学科，但RL的优势为VLA提供了从"理解"走向"执行优化"的关键机制。通过引入奖励或价值信号，RL可以在保持VLA感知与语言能力的同时，对动作策略进行闭环优化，弥补模仿学习在分布外状态和误差累积上的不足。纯模仿学习的 VLA，本质是在"复制数据分布"。一旦环境、物体、初始状态发生变化，就容易崩。很多失败是连续动作误差累积导致的。RL提供的是闭环优化能力：用环境反馈修正动作，用value/reward信号约束长时序行为。当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示，结合RL进行微调和强化"， ...