Workflow
Ai2推出MolmoAct模型:在机器人领域挑战英伟达和谷歌

行业技术发展 - 物理AI是机器人技术与基础模型结合的快速发展领域 英伟达 谷歌和Meta等公司正在发布研究成果探索将大语言模型与机器人技术融合[2] - 基于大语言模型的方法允许机器人根据交互对象确定下一步动作 谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理 Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控[4] - 英伟达宣称物理AI是下一个重大趋势 发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练 Hugging Face发布了299美元的桌面机器人致力于机器人开发的民主化[4] 公司产品创新 - 艾伦人工智能研究所(Ai2)发布全新开源模型MolmoAct 7B 该模型让机器人能够在空间中推理 采用Apache 2.0许可证 数据集使用CC BY-4.0许可证[2] - MolmoAct被归类为动作推理模型 能够运用推理能力理解物理世界 规划空间占用方式并执行相应动作 相比传统视觉-语言-动作(VLA)模型具备三维空间推理能力[2] - 模型通过输出空间定位感知Token来理解物理世界 这些Token使用向量量化变分自编码器预训练提取 能够编码几何结构并估算物体间距离[3] 技术性能表现 - MolmoAct 7B在基准测试中任务成功率达到72.1% 超越了谷歌 微软和英伟达的模型[3] - 模型能够适应不同的具体实现形式如机械臂或人形机器人 只需最少的微调[3] - 空间定位感知Token与VLA使用的Token不同 不是文本输入 使模型能够预测图像空间路径点并输出具体动作指令[3] 行业发展前景 - 创造更具空间感知能力的机器人是开发者的长期梦想 物理AI兴趣正在增加 实现通用物理智能的目标正变得更容易实现[4][5] - 专家认为该研究代表了增强视觉语言模型用于机器人技术的自然进展 是开发更强大的三维物理推理模型的重要一步[4] - 数据开放性为其他学术实验室和专业爱好者提供了坚实基础 因为开发和训练这些模型成本高昂[4]