跨模态融合

搜索文档
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 16:45
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Hao Luo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与动机 当下,大语言模型和多模态模型在文本、图像等领域取得了突破性进展,但机器人领域仍缺乏类 似"ChatGPT时刻"的变革。现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限 于数据:要么依赖存在"仿真到真实"鸿沟的合成数据,要么依赖规模小、多样性不足的远程操作演示,尤 其在灵巧手操作上,因硬件成本高,数据稀缺问题更突出。 人类视频蕴含丰富的真实世界操作数据,是解决数据瓶颈的理想选择。但从人类视频中学习机器人操作面 临四大挑战:数据异质性(不同相机系统、坐标框架导致数据难以统一)、手部运动量化(需将连续精细 运动转化为与语言兼容的离散表示,同时保留毫米级精度)、跨模态推理(需建模视觉、语言与精细手部 运动的复杂关联)、机器人控制转移(人类与机器人手部结构差异导致运动无法直接迁移)。 预训 ...