大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
量子位·2025-11-27 15:30

研究核心概念 - 提出“类人视觉搜索”新任务,使智能体能在360度全景环境中通过自主旋转头部搜索目标物体或路径[6] - 该研究将视觉空间推理从“脱离身体的被动范式”转向“具身的主动范式”[9] - 旨在解决大模型目前只能处理单张静态低分辨率图像、无法改变初始视角获取视野外信息、缺乏物理实体移步换景的局限[12] 技术框架与特性 - 类人视觉搜索具备交互性和具身性两大特性:智能体从窄视角开始行动,每次头部旋转改变视觉输入;将视觉推理与物理动作结合,要求智能体有意识协调头部运动[13] - 具体分为两类搜索问题:类人物体搜索定位目标物体,难度根据初始可见度比率分为简单中等困难三个等级[12];类人路径搜索识别可通行路径并调整身体朝向,难度分为四个级别由文本线索存在及一致性决定[16] - 将搜索问题构建为多模态推理任务,通过策略网络实现工具使用与头部旋转,仅利用决策点采集的单个360°全景图构建闭环搜索环境而无需3D模拟器或硬件[17] 基准测试与数据集 - 构建全新针对性基准测试HBench,突破传统测试多聚焦简单家庭场景的局限,涵盖交通枢纽大型零售场所城市街道公共机构等真实世界复杂环境[7][8] - H包含约3000个带标注任务实例,来源于多样化高分辨率全景视频,通过为每个任务实例设置四个不同起始方向获得12000个搜索回合[21][22] - 数据来源于全球大都市地区自行采集素材及开放平台,场景包含零售环境交通枢纽城市街道公共机构办公室娱乐场所六个主要类别[22][24] 模型训练与性能表现 - 基于Qwen2.5-VL-3B-Instruct模型展开pipeline,经训练后目标搜索准确率从14.83%提升至47.38%,路径搜索准确率从6.44%提升至24.94%[28] - 训练流程包括监督微调灌输基本任务导向推理和工具使用能力,以及多轮强化学习精炼策略鼓励长程推理[31] - 研究发现更大模型尺寸并不保证更好性能,较小4B/3B模型在类人物体搜索任务中超越较大12B/7B模型,在类人路径搜索任务中表现持平[32][33] 错误分析与性能瓶颈 - 类人物体搜索错误主要源于感知能力不足和感知动作差距[36] - 类人路径搜索错误更为复杂,包括缺乏物理常识缺乏社会空间常识以及视觉动作不匹配[36] - 研究表明后训练能有效提高低级感知运动能力,但暴露了高级推理方面根本瓶颈,这些推理需要物理空间和社会常识[34]