Workflow
EgoVLA
icon
搜索文档
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 09:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ruihan Yang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心思路 传统机器人模仿学习依赖于大规模真实机器人数据,但受限于硬件和操作成本,数据规模和任务多样性难 以突破。相比之下,人类在各类环境中的操作行为构成了海量潜在训练数据——全球数十亿人在机器人期 望工作的场景中持续活动,其第一视角视频涵盖了机器人难以进入的空间或远程操作困难的任务。 核心突破在于:人类与机器人的动作空间差异可通过几何变换近似。无需直接基于机器人数据训练视觉-语 言-动作(VLA)模型,而是先在人类第一视角视频上训练模型,再通过少量机器人演示微调,即可实现技 能迁移。这种思路既能利用人类数据的规模和多样性,又能通过微调适配机器人本体(figure 5)。 模型架构与动作空间设计 整体框架 以NVILA-2B为基础框架,借助其视觉-语言理解能力和紧凑性,实现高效的意图推理与微调。输入包括: ...