视觉语言模型(VLM)

搜索文档
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 21:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 21:34
具身智能导航技术现状与分类 - 现有视觉语言导航(VLN)方法分为三类:基于大语言模型(LLM)的导航依赖自然语言描述但缺乏高维语义信息[4][5],基于价值地图的导航解决长时记忆遗忘但易产生次优解[5],基于视觉语言模型(VLM)的导航促进上下文感知但需权衡泛化性与实时性[5] - 主流方法面临四大核心挑战:复杂环境布局导致决策困难[6],未知环境自适应需理解人类指令[6],LLM语言表征丢失几何信息[6],VLM单一视角导致观测不完整[6] MEM2EGO框架创新设计 - 记忆模块采用三层架构:frontier地图标记未知/可通行区域边界[11][15],访问记录避免冗余检索[12],语义地标记忆存储全局坐标和场景描述(如"水槽旁有浴缸")[13] - 导航流程实现八步闭环:360°全景观测突破单一视角限制[14],候选点聚类优化路径规划[14],历史地标检索结合思维链提示实现多模态决策[20][21],动态更新语义记忆[23] 技术实现与微调策略 - 数据采集使用A*算法生成真实轨迹,通过贝塞尔曲线平滑处理[24],从5678个任务生成30352对VQA数据[26] - 模型微调采用Llama3 2-11B-Vision模型,3周期训练batch_size=128,学习率1e-5[26],GPT-4o生成地标描述增强语义理解[24] 实验性能验证 - 在HSSD数据集成功率(SR)达86 85%,超越基线PIVOT(78 4%)和VLFM(76 52%)[30],HSSD-Hard数据集SR提升12 75个百分点至76 47%[30] - 微调后Llama3 2-11B模型SPL达59 95%,优于原始版本(55 82%)和GPT-4o(57 88%)[31],消融实验显示移除语义记忆导致SR下降3 29%[34] 技术局限与发展方向 - 当前框架过度依赖VLM空间推理能力,文本化存储可能导致语义信息丢失[36] - 未来需探索多视角图像并行处理技术[36],突破单一视角的空间推理瓶颈
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]
北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能
量子位· 2025-03-18 19:53
文章核心观点 北京大学卢宗青团队推出首个集运动、导航、灵巧操作于一体的人形机器人通用智能体Being - 0,其提出模块化分层端到端架构,将具身大模型与人形机器人能力集成,仅需互联网视频和少量真机数据,在真实环境验证了高效性和可靠性,开启人形机器人研究和应用新篇章 [1][5][17] 让人形机器人走入现实的难题 - 难题一:让机器人“想”得对,智能体需从人类海量数据中学习通用、可泛化的任务理解和推理能力 [6] - 难题二:让机器人“做”得准,智能体要能控制机器人本体,在复杂环境实现可靠技能规划与衔接,稳定进行运动导航、灵巧操作 [6] Being - 0的架构组成 - 上层基础大模型(FM):负责任务规划、推理和失败检测,学习通用任务理解 [7] - 中层视觉语言模型(VLM):结合语言和第一人称视觉输入,理解具身场景,将基础大模型任务规划转换为可执行技能,解决具身推理不足 [8] - 底层模块化技能库:运动技能让机器人自主导航;操作技能包含抓取等原子技能,能用少量真机数据学习新技能 [8] Being - 0的数据训练优势 - VLM模型模块利用低成本、海量第一人称视频数据学习,成为衔接基础大模型和底层技能库的桥梁 [8] - 模块化技能库只需少量遥操作数据训练短程原子技能,每个技能约100条轨迹,显著降低数据需求 [10] Being - 0的操作与部署特点 - 采用全尺寸人形机器人,搭载灵巧手和主动视觉,实现人类级灵活操作,主动调整头部视角提高环境感知 [11][12] - 将VLM和底层技能库部署于机器人端,实现高效实时任务响应,最小化对网络和外部算力依赖 [13] Being - 0的任务执行效果 - 在多项真实世界长程任务中表现卓越,能在办公生活场景实现自主搬运、抓取、制作咖啡等能力 [14] - VLM设计提供高效、高成功率的技能规划和导航能力,长程任务成功率远超基线方法 [15] - 主动视觉设计增强任务完成度,使导航、操作更灵活高效 [16] Being团队情况 - 由来自北京大学、智源研究院以及智在无界的研究人员组成 [17] - 正在持续迭代人形机器人具身大模型、全身运动控制、灵巧操作等能力,让机器人智能体涌现更强自主能力和泛化性 [17]