Workflow
视觉预见能力
icon
搜索文档
上海交大团队让AI机器人拥有视觉预见力
新浪财经· 2026-01-15 22:19
研究背景与核心突破 - 上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司的联合研究团队,于2025年11月在计算机视觉顶会发表论文,提出名为“Mantis”的机器人新框架[3] - 该研究的核心是让机器人具备“视觉预见”能力,即能够预测自身动作的未来画面,从而大幅提升学习效率和操作能力,解决了当前机器人“走一步看一步”导致的低效学习问题[3] 核心技术:Mantis框架 - Mantis框架的核心创新在于“解耦视觉预见”,将“看未来”和“做动作”两个任务巧妙分离并保持协作,改变了传统方法将多任务混在一起效果不佳的局面[4] - 系统采用“潜在动作查询”技术,从当前与未来画面的变化中自动捕捉关键动作信息,并传递给执行模块[4] - 采用渐进式三阶段训练法:首先通过观看人类操作视频学习预测未来画面,然后结合真实机器人操作数据,最后加入语言理解训练,确保技能与指令理解能力并存[5][6] 性能与效率优势 - 在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0在内的多个先进系统[6] - Mantis展现出显著更快的学习速度,传统视觉预测方法需要十几个训练周期达到的效果,Mantis在几个周期内就能实现[6] - 采用“自适应时序集成”技术,根据任务复杂度自动调整计算资源,将推理计算量减少了50%,同时保持相同的任务成功率[6][10] 真实世界测试表现 - 在三个真实场景测试中,Mantis均明显优于当前领先的开源机器人模型π0.5[7] - 测试场景包括:世界知识(如识别名人照片)、基础推理(如执行数学计算)和意图理解(如理解“我饿了”的隐含需求)[7] - 在处理从未见过的新颖指令时,Mantis表现出强大的泛化能力,而π0.5几乎无法处理,证明了其语言监督训练对保持理解和推理能力的重要性[7] 技术细节与未来方向 - 研究分析表明,视觉预见模块能显著提升动作学习效果,其中的残差连接设计对于捕捉潜在动作信息至关重要[7] - 使用人类操作视频进行预训练比从零开始训练效果更好,说明机器人可以从观察人类行为中学到有价值的操作模式[7] - 当前局限性在于真实操作中偶尔出现轻微动作回退,未来将致力于整合如3D点云等更丰富的输入信息,并进一步优化推理速度[8]