视觉语言模型（VLMs） - 财报，业绩电话会，研报，新闻 - Reportify

视觉语言模型（VLMs）

搜索文档

速递｜成立两年估值6亿美元：AI文档Reducto完成7500万美元B轮融资，月收入七倍增长

Z Potentials· 2025-10-16 11:03

公司融资与估值 - Andreessen Horowitz领投Reducto新一轮融资，该公司是过去两年最活跃的AI初创公司投资方之一[2] - 最新B轮融资额为7500万美元，使公司投后估值达到6亿美元，较六个月前2亿美元的估值翻了三倍[3] - 本轮融资后，公司总融资额达到1.08亿美元，银行仍有超1亿美元存款，成立两年消耗资金不足800万美元[3] 技术与产品 - 公司将传统光学字符识别技术与新兴的视觉语言模型结合，以理解复杂文档[4] - 技术能更好地处理金融、医疗、法律和保险等领域包含缩印、手写注释、多页格式等复杂结构的文档[5] - 视觉语言模型存在虚构信息的“幻觉”倾向，公司将其与传统光学字符识别软件结合以提高可靠性[6] - 视觉语言模型还可用于比照软件输出与原始文档，确保无差异或错误[7] - 每份文档解析需经过约13个模型处理，包括自研模型及OpenAI、Anthropic和Google提供的第三方模型[8] 市场竞争与客户 - 主流光学字符识别软件由Amazon Textract和Microsoft Azure AI Document Intelligence等大型云服务商提供[8] - 公司声称其软件比传统光学字符识别解决方案更精准[9] - 客户包括法律AI初创公司Harvey、为投行开发AI的Rogo以及数据标注公司Scale AI[10] 公司运营与财务 - 公司目前仅有22名员工[8] - 月收入较一年前增长了七倍[11]

光学字符识别技术（OCR）

视觉语言模型（VLMs）

Artificial Intelligence

光学字符识别技术（OCR）

视觉语言模型（VLMs）

Artificial Intelligence

普林斯顿大学最新！VLM2VLA：将 VLM 微调为 VLA，并避免灾难性遗忘

具身智能之心· 2025-10-07 18:00

文章核心观点 - 提出一种名为VLM2VLA的创新方法，通过将机器人动作数据转化为自然语言描述，解决了视觉语言模型在微调为视觉语言动作模型时出现的灾难性遗忘问题 [2][3] - 该方法的核心是将低维动作向量转化为与VLM预训练数据分布一致的自然语言，从而仅需使用低秩适应技术进行高效微调，最大程度保留VLM原有的多模态理解和推理能力 [3][4] - 通过超过800次真实机器人实验验证，该方法在保留VLM核心能力的同时，实现了在新任务中的零样本泛化，尤其在多语言指令遵循和开放世界语义推理方面表现显著优于基线模型 [4][17][22] 技术方法 - 采用三级推理过程将动作预测层级化，全部使用自然语言描述：高层子任务预测、中层运动规划和低层动作生成，完全复用VLM的现有词汇表 [6] - 通过Gemini 2.5自动将原始机器人轨迹数据集重构为语言标注数据集，使数据格式与VLM预训练数据保持一致，解决了分布不匹配问题 [9] - 仅使用LoRA对Gemma-3-12B-IT模型的线性层进行微调，关键超参数包括LoRA秩为16、LoRA alpha为32、学习率为5e-5，不修改VLM基础架构且无需联合训练 [12][13] 实验验证与性能 - 在12个VQA基准测试中验证了模型对预训练多模态理解能力的保留程度，证明其有效避免了灾难性遗忘 [15] - 在分布内任务上性能接近基于更大数据集训练的OpenVLA，在复杂多步骤任务中因层级推理优势表现更佳 [17] - 在分布外任务中优势显著，多语言任务成功率依赖保留的语言能力，语义任务依赖预训练的常识推理，如在识别"Ash Ketchum"任务中成功率达60%，而基线模型完全失败 [17][22] 局限性与未来方向 - 自回归生成动作导致推理延迟较高，中位延迟为6.1秒，需优化解码策略 [19] - 当前仅支持平移自由度控制，无法处理旋转等灵巧动作，且模型针对特定机械臂训练，需探索更通用的"动作语言"表示 [22] - 依赖Gemini作为外部验证器判断子任务完成度，未来需将验证能力融入VLM本身，并扩展更大规模的机器人语言标注数据集以提升泛化能力 [19][22]

灾难性遗忘

视觉语言模型（VLMs）

视觉语言动作模型（VLAs）

Gemma-3-12B-IT模型

灾难性遗忘

视觉语言模型（VLMs）

视觉语言动作模型（VLAs）

Gemma-3-12B-IT模型

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

具身智能之心· 2025-09-30 12:00

视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状，旨在填补现有综述在纯VLA方法上的空白，并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合，标志着通用具身智能发展的重要一步，其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进，结合自回归、扩散和强化学习等多种范式的优势，以应对复杂任务，并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上，早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token，并通过自回归生成动作序列，从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿，其通过结合视觉编码器、大语言模型和强化学习的决策能力，展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式自回归范式 - 自回归模型通过将动作序列视为时间相关过程，在Transformer架构中统一多模态感知和动作生成，支持跨任务泛化的通用代理，代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理，增强了长时任务和复杂指令的处理能力，但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性，采用层级分解、自适应推理和轻量化压缩等策略，以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程支持多样化的动作分布生成，在几何一致性（如SE(3)约束）和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合，实现异质模态的统一表征，并引入显式推理模块和领域专用设计（如力觉感知）以提升性能 [38][39] - 应用优化方向通过轻量化设计（如TinyVLA）、认知启发式架构和运行时鲁棒性机制，推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理，结合离线行为克隆和在线强化学习稳定策略优化，并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制，在开放环境中防止高风险动作，但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术，在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式，以兼顾推理精度与动作生成的物理一致性，代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模，从早期2D特征拼接转向模块化、具3D意识的架构，以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景，通过专用数据集（如CoVLA）和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石，真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集，覆盖527种技能和160,266个任务，显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据，支持可扩展训练和安全测试，代表性平台包括THOR、Habitat和CARLA，它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标，并通过迁移到未见环境评估模型的鲁棒性，仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

港科&理想最新！OmniReason: 时序引导的VLA决策新框架

自动驾驶之心· 2025-09-11 07:33

核心观点 - 香港科技大学（广州）与理想汽车团队提出OmniReason框架一种新型视觉-语言-动作（VLA）框架通过联合建模动态3D环境及决策过程构建时空推理能力解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data（含OmniReason-nuScenes和OmniReason-Bench2Drive）和OmniReason-Agent架构通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能平均L2误差0.34米碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架包含高质量视觉问答对涵盖静态与动态描述及四维域内因果推理和动作信息通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程结合人类先验知识、任务分解和大语言模型推理从多视角视频流和目标级空间标注生成语言-动作对通过Qwen2.5VL 72B模型生成多步因果链阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析自动生成高质量可解释语言-动作对减少幻觉现象提供丰富多模态推理信息确保数据集捕捉时间动态和因果关系严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构集成稀疏时间记忆模块和解释生成器通过知识蒸馏将专家决策模式和自然语言推理注入模型实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知几何对齐补偿自车运动记忆条件归一化传播对象状态查询传播保持跨帧身份一致在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化包含目标类别识别、空间定位、车道及道路结构分析通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米与ORION持平优于BEV-Planner的0.55米和DriveVLM的0.40米碰撞率0.40% 违规率3.18% 创最优纪录优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力突破刺激-响应映射局限实现对因果-时间推理原则显式落地填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度为场景理解和动作生成研究奠定坚实基础树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平决策质量和解释能力显著提升增强真实场景下自动驾驶可靠性和理解能力 [7][8]

视觉 - 语言 - 动作（VLA）框架

端到端学习

大型语言模型（LLMs）

视觉语言模型（VLMs）

OmniReason框架

视觉 - 语言 - 动作（VLA）框架

端到端学习

大型语言模型（LLMs）

视觉语言模型（VLMs）

OmniReason框架

最新综述！多模态融合与VLM在具身机器人领域中的方法盘点

具身智能之心· 2025-08-31 10:33

多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用涵盖语义场景理解三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像深度信息 LiDAR点云语言触觉与位置信息提升机器人感知全面性[3] - 主流融合策略分为早期融合中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取模态交互和任务预测减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别语义分割和关系建模仅靠RGB图像在复杂环境下易受光照变化物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务准确识别并定位行人车辆和障碍物[15] - 单一传感器各有短板相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作演化出点级体素级区域级融合策略到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索感知和行动强调自主决策与动态适应能力[23] - 分为目标导向导航指令跟随导航和基于对话的导航三类从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问实时交互提升任务灵活性特别适合长时序多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化遮挡严重环境动态频繁场景中是大难题多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知语言理解和动作规划让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态通过语言模态理解任务语义将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置形态和姿态触觉提供局部反馈如接触力摩擦和滑动[40] - 在抓取生成阶段视觉帮助确定空间姿态和位置触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中视觉-触觉融合展现巨大优势让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键需在不同模态间建立精确对应关系主流方法分为对比学习自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像文本音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制提升系统可解释性与伦理适应性发展具备长期学习能力的认知型VLM架构[57]

多模态融合

视觉语言模型（VLMs）

跨模态对齐

多模态融合

视觉语言模型（VLMs）

跨模态对齐

Kitchen-R ：高层任务规划与低层控制联合评估的移动操作机器人基准

具身智能之心· 2025-08-25 08:04

基准设计背景 - 当前具身AI基准存在显著割裂：高层语言指令遵循类基准假设低层执行完美，低层控制类基准仅依赖简单单步指令，导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白，通过仿真厨房环境统一评估任务规划与低层控制，为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境，支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令，覆盖移动操作任务[8][9] - 提供三种评估模式：独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证，累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图，输出可执行任务计划（如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子"）[19] - 移动操作子问题输入单步任务和双相机视觉信息，输出10维轨迹点序列（含底座速度、末端执行器位姿及夹爪开合度）[19] - 导航模块采用Theta*算法进行路径规划，低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机，通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标：任务规划采用精确匹配率（EM），移动操作采用均方误差（MSE），综合指标P融合两者性能[20][21][22] - 在线联合评估指标：实时执行任务时计算EM与成功率（SR），最终合并为指标M，高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准：导航任务要求机器人底座与目标距离≤10cm，操作任务要求物体与目标距离≤5cm，且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型，通过添加上下文计划示例使EM指标从0提升至0.612，约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy，融合双相机视觉特征和10维机器人状态，通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比：oracle政策单episode耗时约1分钟，而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加：通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集：包括RGB-D图像和点云数据，传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作，通过配置文件定义关键点位和物体列表[42]

大语言模型（LLMs）

视觉语言模型（VLMs）

机器人任务规划

机器人低层控制

Kitchen-R基准

大语言模型（LLMs）

视觉语言模型（VLMs）

机器人任务规划

机器人低层控制

Kitchen-R基准

中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述

具身智能之心· 2025-08-04 09:59

多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型（VLMs），从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航，展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势，包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析，涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合，各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征，解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据，提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中，多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心，在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标，涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中，多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中，多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]

多模态融合

视觉语言模型（VLMs）

机器人视觉

Artificial Intelligence

RoboMamba模型

多模态融合

视觉语言模型（VLMs）

机器人视觉

Artificial Intelligence

RoboMamba模型

让 VLMs 更适配机器人：小型VLMs也能展现出强大的视觉规划能力

具身智能之心· 2025-07-15 21:49

研究背景 - 大语言模型（LLMs）在机器人程序规划中展现出潜力，能生成符合人类直觉的分步动作序列，但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型（VLMs）为生成更具感知接地性的计划提供可能，但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当，可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架，通过迭代自我批判和自我改进提升小型VLMs（3B-72B参数）的视觉语言程序规划能力[4] - 框架基于自蒸馏原则，无需外部监督或教师模型，通过三阶段循环（批判-修订-验证）优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型，在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集（100个真实场景）和修改后的MFE-ETP仿真数据集（100个虚拟场景）[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度，采用GPT-4o作为自动评估器，与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%，完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%，优化轮次增加使胜率从75-78%升至81%，多数改进出现在前2-3轮[16] - 相较best-of-N方法，SelfReVision在多数设置中提升60%，12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中，Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中，SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%，高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强，消融实验中Verify步骤被证明对过滤次优修订至关重要（PLACES数据集胜率差9 3%）[18][19] - 推理成本较高，平均每个样本需8个推理步骤，可能影响实时应用[22] - 当前仅整合视觉输入，未利用机器人本体感受等多模态信息，限制场景适应性[22]

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

AI Lab最新InternSpatia：VLM空间推理数据集，显著提升模型能力

具身智能之心· 2025-06-24 22:09

背景与动机 - 当前视觉语言模型（VLMs）在空间推理任务中存在显著不足，如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限：场景单一性（集中于室内/室外场景）、指令格式受限（仅支持自然语言或区域掩码）、多视角监督缺失（超90%为单图推理）[3] InternSpatial数据集 - 规模与结构：包含1200万QA对（950万单视图+250万多视图），覆盖5类场景（自然场景、室内、街景、物体中心、具身导航）[3] - 指令多样性：支持19种指令格式，显著优于对比数据集[3] - 视觉格式：提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式：包含自然语言/带<ref>标记/坐标引用等，新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断：包含6,008 QA对，涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展：在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线：注释生成（复用现有注释或SAM2生成掩码）、视角对齐（构建标准3D坐标系）、模板化QA生成（预定义任务模板动态填充）[9] 关键实验结果 - 空间推理性能：InternVL-Spatial-8B模型在单视图任务中位置比较提升25%，多视图任务中物体计数提升17%（68.7 vs 51.7）[9][10] - 多任务表现：在物体计数、绝对距离、物体大小等7项任务中平均得分52.3，较基线提升10.7分[10] - 指令格式鲁棒性：训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性：自动生成的QA对难以完全复现自然语言复杂度，部分描述机械化[12] - 开放推理欠缺：集中于结构化空间关系，缺少开放式场景推理（如物体运动轨迹解释）[12]

视觉语言模型（VLMs）

InternSpatia数据集

InternSpatial-Bench评估基准

视觉语言模型（VLMs）

InternSpatia数据集

InternSpatial-Bench评估基准

FindingDory：具身智能体记忆评估的基准测试

具身智能之心· 2025-06-22 18:56

研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈，视觉语言模型（VLMs）在规划与控制任务中表现突出，但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验（如"找到昨天未整理的玩偶"），但缺乏针对性评估框架 [3] 基准设计创新点任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像，远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式，无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行，忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置（Pick-and-Place），产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景，物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战，包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈：长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%，Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%，表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%，监督微调模型（Qwen-SFT）仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时，底层导航策略成功率仍下降40% [24] - 原生VLM（Gemini/GPT-4o）性能随帧数增加而下降，暴露长上下文无效利用 [20] - 监督微调模型（Qwen-SFT）能利用更长历史提升表现，验证定向训练的有效性 [25] 贡献与未来方向核心贡献 - 首个光真实感具身记忆基准，60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具（HL-SR/LL-SPL等指标） [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据，推动视频QA技术发展 [26]

视觉语言模型（VLMs）

长时序推理

多目标处理

帧采样悖论

视觉语言模型（VLMs）

长时序推理

多目标处理

帧采样悖论