视觉语言模型(VLMs)

搜索文档
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
具身智能之心· 2025-08-04 09:59
多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型(VLMs),从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航,展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势,包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析,涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合,各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征,解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据,提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中,多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心,在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标,涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中,多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中,多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈,视觉语言模型(VLMs)在规划与控制任务中表现突出,但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架 [3] 基准设计创新点 任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像,远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式,无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景,物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战,包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈:长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%,Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%,表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%,监督微调模型(Qwen-SFT)仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时,底层导航策略成功率仍下降40% [24] - 原生VLM(Gemini/GPT-4o)性能随帧数增加而下降,暴露长上下文无效利用 [20] - 监督微调模型(Qwen-SFT)能利用更长历史提升表现,验证定向训练的有效性 [25] 贡献与未来方向 核心贡献 - 首个光真实感具身记忆基准,60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具(HL-SR/LL-SPL等指标) [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据,推动视频QA技术发展 [26]