Workflow
视觉-语言-动作(VLA)模型
icon
搜索文档
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 18:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawen Yu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与问题提出 在机器人操作领域,视觉-语言-动作(VLA)模型通过利用预训练的视觉和语言表示,推动了通用机器人 操作的发展。然而,这些模型在处理需要涉及力的精细控制的接触丰富任务时,尤其是在视觉遮挡或动态 不确定性情况下,表现出明显的局限性。现有的VLA模型严重依赖视觉和语言线索,往往忽略了力传感这 一对于精确物理交互至关重要的模态。 人类在操作过程中会自然地整合触觉和本体感受反馈来调整操作策略,但当前的VLA模型在面对插入、工 具使用或装配等任务时,经常在遮挡或视觉条件较差的情况下表现不佳,导致行为脆弱或任务失败。此 外,不同任务阶段对力的要求也不同,如精细抓取、受控插入和顺应性表面接触等,每个阶段都需要不同 形式的力调制,而现有方法缺乏感知和适应这些动态变化的机制。 核心创新点 (一)ForceVLA框架 ...