如果说今年哪个方向最受欢迎,一定是VLA+RL
具身智能之心·2026-01-19 08:49
纯模仿学习的 VLA,本质是在"复制数据分布"。一旦环境、物体、初始状态发生变化,就容易崩。很多 失败是连续动作误差累积导致的。RL提供的是闭环优化能力:用环境反馈修正动作,用value/reward信号 约束长时序行为。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来...... 最近有同学后台留言,导师不熟悉这个领域,都是自己趟坑,从硬件到数据,再到训练,一直跑不出效 果,也没好的idea~ 如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感 ...