视觉语言大模型
搜索文档
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 10:04
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 原文链接: 南洋理工、哈佛提出OpenREAD:用端到端RL统一驾驶认知与轨迹规划 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 让视觉语言大模型 同时学会 " 思考 " 与 " 执行 " 」 在自动驾驶研究中,利用大语言视觉语言模型(LLMNLM)学习开放式驾驶知识,进而提升轨迹规划与决策能力,正逐渐成为新的趋势。 然而,传统的监督微调(SFT)范式难以充分挖掘模型的推理潜力,对知识的学习效率也存在不足。DeepSeek-R1的出现向我们展示了强化学习在提升模 型推理与思考能力方面的巨大潜力,使模型具备更强的泛化表现。 因此,一个关键问题随之而来:如何通过强化学习增强视觉语言模型的推理能力,让模型"学会思考",并在同一框架下同时掌握开放式驾驶知识与轨迹规 划?这正是基于视觉语言大模型实现端到端自动驾驶所面临的全新挑战。 南洋理 ...
AAAI 2026 | 电子科技大学提出OWL,基于双路径注意力干预的多模态大模型物体幻觉缓解
机器之心· 2025-11-28 16:05
文章核心观点 - 论文提出一种名为Owl的新框架,旨在缓解视觉语言大模型中的物体幻觉问题 [2] - 该框架基于因果关系,采用双路径注意力干预方法,通过量化跨模态依赖关系并动态纠正注意力偏差来抑制幻觉 [2][4][7][8] - 在多个基准测试中,Owl方法显著降低了幻觉指标,同时保持甚至提升了模型的基本理解能力和生成内容的丰富度 [13][14][16] 现有问题与Owl的解决方案 - 现有方法普遍存在两大问题:忽视双模态注意力交互失衡的核心诱因,以及缺乏对解码过程中跨模态依赖关系的量化衡量 [5] - Owl通过构建结构因果模型,将视觉与文本注意力形式化为关键中介变量,揭示了混杂因子通过扭曲注意力导致幻觉的路径 [4] - 提出VTACR指标,通过计算视觉token平均注意力与文本token平均注意力之比,量化模型在每一解码层对两种模态的依赖程度,为干预提供信号指导 [7] - 采用双路径对比注意力干预方法,构建视觉增强路径和文本增强路径,利用对比解码策略放大差异,动态纠正注意力偏差 [8][10] 实验结果 - 在CHAIR基准上,Owl在LLaVA-1.5模型上将句子级幻觉降低17.6%,实例级幻觉降低21.4%,同时生成了更长的文本 [13] - 在五个VQA任务测试中,Owl在多数任务上性能持平甚至提升,如在VizWiz任务上提升7.6%,表明其增强了复杂视觉场景下的理解能力 [14] - 通过GPT-4V进行的人工对齐评估显示,Owl在生成内容的正确性上提升20.1%,在详细度上提升11.3%,内容更忠实且信息量更丰富 [16] - 评估覆盖三个代表性LVLMs(LLaVA-1.5、MiniGPT-4和Shikra),并对比了包括VCD、PAI、OPERA和CausalMM在内的先进基线方法 [12]
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练
机器之心· 2025-10-29 19:02
核心观点 - 提出一种名为ELIP的方法,旨在利用学术界有限的计算资源来增强视觉语言大模型的预训练,以提升其在文字-图片检索任务中的性能 [2] - 该方法的核心思想是通过一个轻量级的MLP映射网络,将语言信息注入到图像编码器中,实现两阶段(ranking + re-ranking)的检索流程 [5] - ELIP方法被证明可以显著提升包括CLIP、SigLIP、SigLIP-2和BLIP-2在内的多种主流视觉语言模型的检索效果,并在新的OOD测试集上展现出强大的泛化能力 [20][21][22] 方法概览 - ELIP方法首先使用传统模型(如CLIP/SigLIP)进行初步排序,然后对排名靠前的候选结果进行重新排序 [5] - 重新排序的关键是一个简单的三层MLP映射网络,该网络将文本特征映射为视觉域中的token,并将其插入图像编码器,使图像编码过程能感知语言信息 [5][9] - 该方法具有通用性,可应用于CLIP、SigLIP、SigLIP-2和BLIP-2等模型,分别称为ELIP-C、ELIP-S、ELIP-S-2和ELIP-B [5] 模型架构创新 - 模型架构的主要创新在于仅需训练一个轻量级的MLP映射网络,而庞大的图像和文本编码器的权重保持固定,这大大降低了计算资源需求 [8][9] - 对于CLIP和SigLIP模型,训练时分别沿用InfoNCE损失函数和Sigmoid损失函数来对齐文本特征和重新计算后的图像特征 [9] - 对于BLIP-2模型(ELIP-B),由文本引导的图像特征被输入Q-Former与文本进行交叉注意力计算,最终由ITM Head预测图文匹配度,训练沿用BLIP-2的BCE损失函数 [11] 训练数据创新 - 针对学术界GPU资源有限导致训练批次大小(batch size)较小的问题,作者提出了一种硬样本训练批次构建方法 [13] - 该方法预先计算训练图片和对应文字标题的CLIP特征,然后将特征相似的图文对聚集在一起,形成一个包含挑战性样本的训练批次,以提升模型的分辨能力 [13][15] 新的评测数据集 - 除了COCO和Flickr等标准测试集,作者引入了两个新的分布外(OOD)测试集:Occluded COCO和ImageNet-R,以评估模型的泛化能力 [17][18] - Occluded COCO数据集中的正样本包含被遮挡的物体,ImageNet-R数据集中的正样本包含来自不常见领域的物体 [18] 实验结果 - 在COCO数据集上,ELIP-C将CLIP的平均Recall从60.58提升至65.71;ELIP-S将SigLIP的平均Recall从71.74提升至77.45;ELIP-S-2将SigLIP-2的平均Recall从73.72提升至78.82 [21] - 在Flickr数据集上,ELIP-C将CLIP的平均Recall从82.97提升至85.87;ELIP-S将SigLIP的平均Recall从92.37提升至94.98;ELIP-S-2将SigLIP-2的平均Recall从92.92提升至94.88 [21] - ELIP-B将BLIP-2在COCO上的平均Recall从82.87提升至83.02,在Flickr上从95.62提升至95.88,表现超过了最新的Q-Pert方法 [21] - 在OOD测试集上,所有ELIP变体均取得了零样本泛化提升,例如ELIP-S在Occluded COCO上的零样本性能为64.58,经过微调后可达71.99 [22] - 注意力图分析表明,当文本查询与图片相关时,ELIP能够增强模型对文字描述相关区域的注意力 [23]
高德TrafficVLM模型再升级:AI赋予“天眼”视角 可预知全局路况 当AI“看见”实时交通:智能导航体验或被重新定义
扬子晚报网· 2025-09-19 16:39
核心技术能力 - 依托空间智能架构实现TrafficVLM模型升级 实现全局交通态势感知 [1][2] - 基于通义Qwen-VL视觉语言模型底座 结合海量交通视觉数据进行强化学习训练 [9] - 具备车辆 车道线 交通信号灯状态及车路相对位置的精准识别能力 [11] - 能分析车辆互动关系 如变道犹豫行为及减速传导效应 [11] 技术实现机制 - 以分钟级频率对沿途交通态势进行实时推理 [2] - 通过交通孪生还原能力将实时数据转化为动态孪生视频流 [5] - 在任意地区任意尺度下构建与现实同步的数字交通世界 [5] - 结合实时交通流与历史动态分析拥堵成因及发展趋势 [11] 应用场景效果 - 可预判3公里外突发事故导致的拥堵蔓延情况 [4] - 实时推送最优通行建议并提供高清实景图像验证 [4] - 实现从被动接收提示到主动洞察全局的导航体验升级 [4] - 覆盖微观路段(如潮白河桥)至宏观区域(如演唱会期间鸟巢)的交通分析 [7][9] 系统架构创新 - 交通孪生还原与视觉语言大模型技术深度融合 [11] - 形成从感知到决策的完整智能闭环 [9][11] - 将复杂交通博弈转化为可视化可感知的决策信息 [11] - 实现AI对现实世界任意区域交通脉搏的实时洞察 [5]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]