视觉-语言模型 - 财报，业绩电话会，研报，新闻

视觉-语言模型

搜索文档

具身智能之心· 2025-09-05 08:45

点击下方卡片，关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球点击按钮预约直播热身材料：分享介绍美的具身基座模型负责人 ...... 2. 拓展VLA模型能力边界 3. 提升VLA模型泛化能力 1. DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control. 2. ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge. 3. ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model. 4. Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reason ...

ICCV 2025 Highlight | 3D真值生成新范式，开放驾驶场景的语义Occupancy自动化标注!

机器之心· 2025-08-29 08:15

研究团队与背景 - 研究成果由北京大学王选计算机研究所VDIG实验室开发，第一作者为博士生周啸宇，通讯作者为博士生导师王勇涛副研究员[2] - 实验室在IJCV、CVPR、AAAI、ICCV、ICML、ECCV等顶会发表多项重量级成果，多次荣获国内外CV领域竞赛冠亚军奖项[2] - 论文已被ICCV 2025录用为Highlight[2] 技术框架与创新 - AutoOcc是开放自动驾驶场景的高效高质量三维语义占据栅格真值标注框架，无需人类标注即可超越现有自动化标注管线[2][5] - 利用视觉-语言模型生成语义注意力图描述场景并动态扩展语义列表，通过自估计光流模块处理动态物体[5][17] - 提出具有开放语义感知的3D高斯表示（VL-GS），实现自动驾驶场景的完整三维几何和语义建模[6][17] - 支持环视驾驶场景图像序列输入，可选LiDAR点云提供几何先验约束[13] - 相比基于点云体素化和语义投影的方法，具备更强鲁棒性和开放式语义标注能力[21] 性能表现 - 在Occ3D-nuScenes数据集上超越现有最先进的语义占据栅格预测和真值生成模型[20][21] - 在SemanticKITTI跨数据集评估中展现卓越零样本泛化能力，mIoU-base指标达17.03[20][22][23] - 在极端天气条件（雨天/雾天/黑夜）下实现完整语义占据标注，反光路面区域也能正确重建[23][27] - 计算效率显著提升：仅需约30 GPU小时和5.0G内存，相比SurroundOcc的1000+ GPU小时和73G内存大幅优化[24][25] 行业应用价值 - 解决传统人工标注管线需4000+人时的高成本问题，以及极端环境下的误标注问题[8][25] - 突破有监督方法对大规模人工标注数据的依赖，显著提升泛化能力[8][22] - 支持开放词汇三维语义感知，可动态扩展语义类别而不受预设类别限制[5][22]

ExploreVLM：基于视觉-语言模型的闭环机器人探索任务规划框架

具身智能之心· 2025-08-20 08:03

研究背景与核心问题 - 具身智能发展推动机器人成为日常助手要求机器人具备高层指令解读动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限：交互式探索能力不足感知精度有限计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括：场景感知模块提取目标中心空间关系图双阶段规划器生成探索和完成阶段子目标执行验证器生成反馈规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示：节点标注物体语义属性有向边表示物体间空间关系 [8] - 构建流程分两步：GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成"：探索阶段生成探索子目标及动作完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划解决LLM幻觉问题：验证目标有效性检查动作逻辑一致性处理障碍物 [10][12] - 执行验证器采用逐步验证机制：判断动作是否成功验证子目标是否达成若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行设计5个递增复杂度任务 [15] - 平均成功率：ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率：Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降：无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境通过探索准确定位目标 [21] - 自反思修正逻辑错误避免不合理动作序列 [21] - 逐步验证增强抗噪声能力及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合适应性有限 [22] - VILA直接用GPT-4V生成计划但缺乏结构化感知探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈误差易累积 [22] - RoboExp需依赖先验物体知识探索步骤冗余 [22]

自动驾驶之心· 2025-07-14 19:30

自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案，通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距，实现超视距推理能力[2] - NavigScene包含两个子集：NavigScene-nuScenes和NavigScene-NAVSIM，通过自然语言指令模拟人类驾驶环境，整合Google Maps等导航工具的BVR（超视距）信息[9][14] - 系统采用三种创新方法：导航引导推理（NSFT）、导航引导偏好优化（NPO）和导航引导视觉-语言-动作模型（NVLA），显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频，通过Direction API获取路线、Static Map API采集连续图像，Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标（交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword）选择最优导航描述，权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出（如LlamaAdapter的32,000维）与BEV特征（典型256维）的维度不匹配问题，实现特征融合[28][29] 性能验证数据 - 问答任务中，整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升，Qwen2.5-7B表现最佳（BLEU-4从51.65提升至55.13）[32][47] - 端到端驾驶测试显示，SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04，闭环规划中DAC指标达96%，优于基线系统84.2%[40][41] - 跨城市泛化实验证明，NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%，显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知（3D检测、BEV）、预测（轨迹分析）、规划（闭环控制）全链条，形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增，顶尖企业为博士人才提供90-120K薪资，反映技术商业化加速[64] - 行业社区规模达4000人，涵盖300+企业与科研机构，显示技术生态快速扩张[65]

One RL to See Them All？一个强化学习统一视觉-语言任务！

机器之心· 2025-05-27 12:11

视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件：样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]

强化学习

视觉-语言模型

Artificial Intelligence

Artificial Intelligence

V-Triune

Orsta