视觉语言模型(VLMs)

搜索文档
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...