微软研究院发布Rho-alpha机器人模型,融合了视觉、语言和触觉功能
文章核心观点 - 微软研究院发布新型机器人模型Rho-alpha,旨在通过理解自然语言指令,使机器人能在非结构化环境中执行复杂物理任务,推动具身智能技术发展 [1] 模型技术特点 - Rho-alpha源自微软Phi系列视觉语言模型,被描述为“VLA+”模型,融合了视觉、语言及其他传感方式,超越传统输入 [1] - 模型新增触觉传感功能,集成了触摸数据,并正在进行力感应等其他传感方式的研究 [2] - 模型旨在通过用户与机器人互动时提供的反馈,在部署过程中持续改进 [2] 模型训练方法 - 模型训练高度依赖合成数据,采用多阶段训练流程,结合强化学习和仿真技术 [2] - 训练流程基于英伟达的Isaac Sim框架,无需大量实际远程操作即可生成海量训练数据 [2] - 英伟达与微软合作开发仿真基础设施,利用Azure上的Nvidia Isaac Sim生成物理上精确的高保真合成数据集,以加速模型开发 [4] 行业挑战与合作 - 缺乏多样化的真实世界机器人数据是基础模型面临的主要挑战 [4] - 通过远程操作生成训练数据是标准做法,但在许多情况下不切实际或不可能 [4] - 微软研究院与华盛顿大学助理教授Abhishek Gupta合作,利用仿真和强化学习相结合的方法,用合成演示丰富从物理机器人收集的预训练数据集 [4] - 英伟达强调合成数据在克服真实世界数据匮乏、加速机器人技术发展中的作用 [4] 发布与未来计划 - Rho-alpha正通过微软的早期研究访问计划(REAP)发布,并已开放该计划的注册 [1][4] - 公司表示将在未来几个月内发布更多关于其机器人研究工作的更新信息 [4]