从几个代表性的工作分析强化学习和VLA是怎么结合的?挑战有哪些?
具身智能之心·2025-10-22 11:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 CyberSoma 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 强化学习和 VLA 的结合,简单来说就是让机器人既能看懂画面、听懂指令,又能通过不断尝试调整动作,变得更聪明灵活。 像机器人在学拧瓶盖时,VLA 模型可以先帮它理解要抓住瓶子、旋转盖子等步骤,再用强化学习根据实际操作的反馈(抓得过紧或太松)来优化动作细节。 具体结合方式: 1. 用 VLA 模型强化学习的方向 VLA 模型能把视觉和语言信息转化为任务目标,告诉机器人:把红色杯子放到蓝色托盘上。 强化学习则根据这个目标,在环境中尝试不同动作,比如调整机械臂的角度、力度。 就像老师先给学生讲题思路,学生再自己练习解题,遇到问题再调整方法。 GRAPE 框架通过 VLM 把复杂任务拆分成多个阶段(拿起杯子、移动到托盘),每个阶段设定关键空间点,再用强化学习优化每个阶段的动作,让机器人在没 见过的环境中也能完成任务,成功率比传统 ...