Workflow
ICCV 2025 | Mamba-3VL:单一模型攻克18类异构任务,重新定义具身智能大模型能力边界
具身智能之心·2025-10-30 18:00

核心观点 - 清华大学、上海交大人工智能学院、腾讯ARC Lab、Anyverse Intelligence等机构联合提出通用具身大模型Mamba-3VL,该模型将状态空间模型Mamba引入3D视觉-语言学习,旨在解决具身智能的“任务适配性”难题,突破“单任务专精”局限 [2] - 模型通过三大核心方法创新,精准支持18类异构任务,从基础3D感知到高级具身交互全覆盖,系统性探索并刷新了具身模型的能力上限 [3] - Mamba-3VL在多个基准测试中刷新性能纪录,并展现出极强的泛化能力,仅需微调1%的LLM参数即可快速适配新任务,为低成本拓展任务边界提供了可能 [11][13] 核心方法创新 - 多模态 Mamba Mixer 模块:创新设计“双扫描 + 通道扭曲”机制,通过关系优先空间扫描(融合近邻实例扫描NIS与远距实例扫描FIS)捕捉局部与长程空间关联,并通过通道扭曲实现视觉几何与语言语义的深度绑定,解决3D点云无序性问题并适配不同任务的模态交互需求 [5] - 实例感知动态位置编码(IDPA):实现“几何先验 + 语义调制”双驱动的动态位置编码,通过EdgeConv几何嵌入注入3D物体几何先验,并利用语言调制实例适配器(LISA)基于文本语义动态扭曲3D实例空间特征,提升异构任务适配灵活性 [6][9] - 统一查询解码框架与多任务输出头:采用“统一输入-灵活输出”设计,将多种3D数据统一编码为实例查询,通过堆叠Mamba Mixer与IDPA层进行统一特征提取,并设计分割头、Grounding头、生成头三大通用输出头,实现无需修改架构即可适配不同类型任务 [6][9] 18类异构任务能力 - 3D视觉-语言基础理解任务(6类):包括单目标指代分割、多目标指代分割、边界框引导指代分割、单目标视觉Grounding、多目标视觉Grounding、3D密集描述生成,筑牢具身智能的感知与理解基石 [8][10] - 3D语言推理与问答任务(4类):包括基础3D问答、情境推理问答、多跳推理问答、3D场景对话生成,赋予具身智能逻辑思考能力 [9][10] - 3D实例分割任务(2类):包括闭集3D实例分割与开集3D实例分割,强化具身智能的精细感知能力,后者无需重新训练即可分割未见类别 [9][14] - 高级具身交互与规划任务(6类):包括任务规划、具身导航、机器人操作、3D场景对话交互、跨模态检索、开放场景适配任务,迈向能行动、会规划的实用具身智能 [11][14] 性能与效率突破 - 在ScanRefer数据集上,Unique指标达79.9%,Multiple指标达48.9%,超越PQ3D等SOTA模型 [15] - 在Scan2Cap密集描述任务中,Cider@25指标达91.2%,Cider@50指标达84.0%,生成描述更精准连贯 [15] - 在机器人操作与具身导航任务中,unseen任务成功率远超CLIPort、LEO等模型 [15] - 线性计算复杂度较Transformer模型效率提升显著,处理大规模3D场景时无性能衰减 [15] 行业意义与发展方向 - 研究打破了任务壁垒,证明具身模型可通过统一架构适配感知-理解-推理-交互全链路任务,无需为单一任务设计专属模块 [17][20] - 效率与性能兼得,为真实场景部署奠定基础,并首次系统性验证了具身模型处理18类异构任务的可行性,为探索百任务、千任务通用具身智能提供了蓝本 [17][20] - 相关技术可直接应用于机器人交互、自动驾驶场景理解、虚拟现实、智能家居控制等领域,推动具身智能从“单场景专精”迈向“全场景通用” [17][18]