推切(Pushcut)现象

搜索文档
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 11:56
以下文章来源于具身智能之心 ,作者Haozhan Li等 具身智能之心 . 与世界交互,更进一步 作者丨 Haozhan Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 "娇气" 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵 到离谱还难扩规模),遇到没见过的任务或环境,性能直接 "翻车"。 好在大推理模型领域给了新灵感——强化学习(RL)光靠任务结果就能提升推理能力,那能不能用在 VLA 模型上?可难题也不少:传统机器人 RL 要手工调奖 励,没法大规模用;VLA 还得和环境反复交互,比 LLM 生成文本麻烦多了。 别慌,SimpleVLA-RL 框架来救场了!它基于 veRL 优化,专门适配 VLA 的轨迹采样、并行训练,效果直接拉满:在 LIBERO、RoboTwin 等基准测试里拿了 ...