Workflow
视觉-语言模型
icon
搜索文档
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 19:30
自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]
SURPRISE3D:首创复杂3D场景空间推理数据集,突破语义捷径依赖瓶颈
具身智能之心· 2025-07-13 17:48
具身智能与空间推理 - 空间推理是具身AI和机器人系统的核心能力,智能体需在真实环境中解读3D空间布局和上下文指令以完成导航、物体操作等任务[3] - 现有3D视觉-语言基准存在三大局限:过度依赖显式查询、推理覆盖有限且浅显、模板驱动或简单空间查询,导致模型依赖语义先验而非真正空间推理[4] - SURPRISE3D是首个支持20多万查询-物体掩码对的大规模空间推理分割基准,覆盖2800多种物体类别,通过隐式性、模糊性和语义轻量性设计强制模型进行深度空间推理[4][5] 数据集创新与构建 - SURPRISE3D基于ScanNet++ v2的900多个室内环境构建,包含89K+人工生成复杂空间查询和110K LLM生成的常识/意图推理问题[6] - 采用双重标注流程:空间推理标注固定相机视角下的四种问题类型,常识/意图标注通过LLM生成+人工验证的两阶段工作流[16][18] - 引入3D-SRS基准套件,采用掩码IoU和grounding精度等指标,实证显示现有3D基础模型在缺乏语义捷径时性能下降50%以上[5][15][26] 技术突破与评估 - 定义四类空间推理任务:叙事视角(模拟智能体视角)、参数视角(解析方向指令)、相对位置(处理遮挡关系)、绝对距离(计算物理距离)[12] - 在零样本测试中,最先进的MLLMfor3D模型在叙事视角任务上仅达15 07%准确率(A25),参数视角任务低至4 25%,暴露当前技术瓶颈[26][27] - 微调后模型性能提升约3倍,证明现有数据集因保留语义线索而低估了真实空间推理难度,SURPRISE3D为行业提供更严格的评估标准[28] 行业应用与局限 - 该技术可提升服务机器人执行"沙发左侧桌子"等空间指令的准确率,优化家庭助手根据"离地板2米的灯"等模糊查询的响应能力[3][6] - 当前局限包括标注扩展性依赖人工、部分查询类型在实际部署中不够自然、数据集仅覆盖室内静态场景[29] - 行业未来方向包括领域迁移至户外环境、引入时间推理维度以及开发多轮交互框架,以全面推动具身智能商业化落地[29]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
机器之心报道 编辑:+0、Panda 强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍 有待深入探索。 近日,国内初创公司 MiniMax 提出了 V -Tri une ,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。 该系统建立在三个核心且相互关联的部分之上,旨在协同处理这些多样化的任务。接下来将详细解释这三个核心组件,并介绍 MiniMax 新颖的动态 IoU 奖励机 制。 样本级数据格式化 MiniMax 是如何格式化数据以支持跨感知和推理任务的统一训练的呢? V-Triune 包含三个互补的组件: 样本级数据格式化 (Sample-Level Data Formatting)(用以统一多样化的任务输入)、 验证器级奖励计算 (Verifier-Level Reward Computation)(通过专门的验证器提供定制化奖励)以及 数据源级指标监控 (Source-Level Metric Monitoring)(用以诊断数据源层面的问题)。 M ...