OpenVLA

搜索文档
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 15:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 SonghaoHan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机 近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了"看图执行指令"的全 新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置 等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在:直接把多模态观测映射到低层控制信号,强调 即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以 胜任;机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。 现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ...
空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作
量子位· 2025-03-05 12:21
SpatialVLA团队 投稿 量子位 | 公众号 QbitAI 与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略,一直是机器人领域的长期追求。 现有的通用操作模型局限于2D输入,缺乏鲁棒的3D感知能力,在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差,限制 了其在现实世界中的通用性。 而 人类具有通用且结构化的空间认知能力,能够在不同的场景中精细准确的操作物体 。因此,当前领域的一个关键问题是 如何有效地为 VLA模型赋予通用的3D物理世界空间理解能力? 来自上海AI Lab、TeleAI、 上科大 等机构的研究员提SpatialVLA—— 百万真机数据预训练的空间具身通用操作模型 ,全面探究了空间表征在具身通用操作模型中的潜力,在zero-shot泛化控制、场景高效微调、 空间理解等多项评估中取得了最先进的性能。 通用操作策略面临的挑战 近期视觉-语言-动作模型的进展为构建此类通用策略提供了有前景的范式,特别是通过在多样化机器人数据上训练视觉-语言模型。相关的最新 研究包括OpenVLA、RDT、π0等。然而现有的VLA模型大多局限于2D输入,缺乏稳健的3D感知能力,且在面 ...