研究核心观点 - Vision-Language-Action模型在推理阶段结合生成-验证范式可显著提升泛化能力与可靠性[2] - 研究揭示了具身智能中的Test-Time Scaling Law:随着推理阶段采样与验证规模增长,模型任务成功率和稳定性呈现可预测的提升规律[2] - 该方法能在不改动训练模型的前提下显著提升性能,为通用机器人模型提供更稳健的落地路径[5] 方法论概述 - 方法分为两个阶段:动作验证器训练和推理阶段的计算扩展[8][9] - 阶段一利用机器人数据集采样候选动作并构造合成偏好数据,用以微调一个基于VLM的动作验证器[8] - 阶段二在部署时采样多个初始动作,拟合高斯分布并利用训练好的验证器评估排序,挑选最优动作执行[12] 实验发现与性能提升 - 当增加推理阶段候选动作的生成数量时,VLA的动作误差会持续下降[5] - 在多种主流VLA模型中,动作误差与高斯扰动采样数量之间呈现出稳定的幂律关系[5] - 将VLA模型与RoboMonkey结合可在真实世界out-of-distribution tasks上提升性能25%,在in-distribution SIMPLER环境上提升9%,在LIBERO-Long benchmark上提升7%[17] - 扩展合成数据集规模对验证器性能有显著提升作用,验证器准确性呈近似对数线性增长[16] 系统实现与部署 - 研究团队在SGLang之上实现了专用的VLA serving引擎,支持高速的VLA动作重复采样[19] - 系统通过高斯扰动高效构建动作分布,显著降低了推理阶段的开销[19] - 在相同延迟约束下,配备更大容量高带宽存储器的GPU能够支持更高吞吐量,进一步提升机器人基础模型的泛化能力[19]
斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law
机器之心·2025-10-14 14:33