Workflow
InteractMove
icon
搜索文档
ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架
机器之心· 2025-10-19 11:48
研究核心与团队背景 - 研究首次提出在含可移动物体的3D场景中,基于文本的人-物交互生成任务,并构建了大规模数据集与创新方法框架 [3] - 该研究由北京大学王选计算机研究所团队完成,第一作者为博士生蔡鑫豪,通讯作者为博士生导师刘洋,团队在顶级会议和期刊上有多项成果 [2] - 该研究已被ACMMM 2025正式接收,相关代码与模型已全部开源 [5][17] 技术挑战与解决方案 - 现有技术瓶颈在于交互类别不足且通常只考虑与静态物体的交互,引入可移动物体后任务更具挑战性,需准确识别目标、学会与不同物体交互并避免碰撞 [3][8][9] - 提出的三阶段框架包括:利用3D视觉定位模型确定目标交互物体;通过手-物联合可达图学习预测接触区域以实现精确抓取;通过局部场景建模与碰撞约束优化交互 [3][20][21][22] - 手-物可达图模块将物体表面与手部关节关键点的成对距离归一化,显式建模交互中的时空关键信息,使模型能生成符合语义的动作策略 [21] InteractMove数据集 - InteractMove数据集通过自动对齐现有交互动作与三维扫描场景构建,避免了高昂的采集成本 [11] - 数据集包含三大亮点:场景中含多个可交互物体及同类干扰项;覆盖71类可移动物体和21种交互方式;动作与物体轨迹经过严格筛选以确保物理合理性 [11] - 数据合成分为三个阶段:可移动目标物体放置、物理一致的动作对齐、基于物理规律的场景感知筛选 [11][12] 实验结果与性能 - 在InteractMove数据集上,该方法在交互准确性、物理合理性、多样性以及碰撞避免等所有指标上均取得最佳成绩 [24] - 具体表现为:多样性相较最优结果提升18%(从1.33/1.25提升至1.58),物理合理性提升14%(从0.708/0.659提升至0.813),非碰撞分数达到98.36 [24] - 消融实验证明了各模块的有效性,移除3D视觉定位导致目标距离指标显著恶化,移除手-物可达图模块则使物理合理性明显下降 [26][29] 应用前景与行业意义 - 该研究为虚拟现实、增强现实、电子游戏、数字人和机器人等应用场景奠定了坚实基础 [35] - 该技术能让AI在虚拟世界中实现更自然、更智能的人-物交互,未来将探索更大规模、更复杂场景下的人机协同和通用交互智能体构建 [35]