视觉语言大模型 - 财报，业绩电话会，研报，新闻

视觉语言大模型

搜索文档

自动驾驶之心· 2025-12-13 10:04

文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架，旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于，通过引入大语言模型作为“评判专家”，将强化学习的应用范围从传统的、可验证的轨迹规划任务，成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务，实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明，该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能，证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**：为应对开放式知识学习的奖励设计挑战，研究构建了带显式思维链的驾驶知识数据，并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调，为模型提供冷启动，使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**：在强化学习微调阶段，引入Qwen3-LLM作为“评判专家”，由其判断模型生成答案与参考答案是否一致，并给予0或1的奖励[12]。同时，计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励，形成“专家判断+语义相似度”的双重奖励机制，以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**：框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划，设计了基于轨迹误差的奖励函数，对近距离时间点的误差要求更严格，对远距离误差更宽容，以平衡安全性与规划精度[13]。在训练中，为批次内不同类型的任务分别计算奖励，最后综合用于更新模型参数，促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**：在LingoQA和NuScenes数据集上的实验表明，仅使用轨迹规划任务时，强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练，强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后，强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为：平均L2误差从监督微调的0.44米降至0.40米，平均碰撞率从0.18%降至0.11%，LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**：在NuScenes开环评测中，OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米，平均碰撞率为0.11%，在碰撞控制方面表现出色，保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比，OpenREAD在轨迹误差和碰撞率控制上均更优，突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**：在LingoQA驾驶知识评测中，OpenREAD取得了当前最优的表现，其Lingo-Judge准确率达到68.2%，超过了其他对比模型如ReCogDrive（67.8%）和WiseAD（60.4%）[22]

AAAI 2026 | 电子科技大学提出OWL，基于双路径注意力干预的多模态大模型物体幻觉缓解

机器之心· 2025-11-28 16:05

文章核心观点 - 论文提出一种名为Owl的新框架，旨在缓解视觉语言大模型中的物体幻觉问题 [2] - 该框架基于因果关系，采用双路径注意力干预方法，通过量化跨模态依赖关系并动态纠正注意力偏差来抑制幻觉 [2][4][7][8] - 在多个基准测试中，Owl方法显著降低了幻觉指标，同时保持甚至提升了模型的基本理解能力和生成内容的丰富度 [13][14][16] 现有问题与Owl的解决方案 - 现有方法普遍存在两大问题：忽视双模态注意力交互失衡的核心诱因，以及缺乏对解码过程中跨模态依赖关系的量化衡量 [5] - Owl通过构建结构因果模型，将视觉与文本注意力形式化为关键中介变量，揭示了混杂因子通过扭曲注意力导致幻觉的路径 [4] - 提出VTACR指标，通过计算视觉token平均注意力与文本token平均注意力之比，量化模型在每一解码层对两种模态的依赖程度，为干预提供信号指导 [7] - 采用双路径对比注意力干预方法，构建视觉增强路径和文本增强路径，利用对比解码策略放大差异，动态纠正注意力偏差 [8][10] 实验结果 - 在CHAIR基准上，Owl在LLaVA-1.5模型上将句子级幻觉降低17.6%，实例级幻觉降低21.4%，同时生成了更长的文本 [13] - 在五个VQA任务测试中，Owl在多数任务上性能持平甚至提升，如在VizWiz任务上提升7.6%，表明其增强了复杂视觉场景下的理解能力 [14] - 通过GPT-4V进行的人工对齐评估显示，Owl在生成内容的正确性上提升20.1%，在详细度上提升11.3%，内容更忠实且信息量更丰富 [16] - 评估覆盖三个代表性LVLMs（LLaVA-1.5、MiniGPT-4和Shikra），并对比了包括VCD、PAI、OPERA和CausalMM在内的先进基线方法 [12]

牛津VGG、港大、上交发布ELIP：超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

机器之心· 2025-10-29 19:02

核心观点 - 提出一种名为ELIP的方法，旨在利用学术界有限的计算资源来增强视觉语言大模型的预训练，以提升其在文字-图片检索任务中的性能 [2] - 该方法的核心思想是通过一个轻量级的MLP映射网络，将语言信息注入到图像编码器中，实现两阶段（ranking + re-ranking）的检索流程 [5] - ELIP方法被证明可以显著提升包括CLIP、SigLIP、SigLIP-2和BLIP-2在内的多种主流视觉语言模型的检索效果，并在新的OOD测试集上展现出强大的泛化能力 [20][21][22] 方法概览 - ELIP方法首先使用传统模型（如CLIP/SigLIP）进行初步排序，然后对排名靠前的候选结果进行重新排序 [5] - 重新排序的关键是一个简单的三层MLP映射网络，该网络将文本特征映射为视觉域中的token，并将其插入图像编码器，使图像编码过程能感知语言信息 [5][9] - 该方法具有通用性，可应用于CLIP、SigLIP、SigLIP-2和BLIP-2等模型，分别称为ELIP-C、ELIP-S、ELIP-S-2和ELIP-B [5] 模型架构创新 - 模型架构的主要创新在于仅需训练一个轻量级的MLP映射网络，而庞大的图像和文本编码器的权重保持固定，这大大降低了计算资源需求 [8][9] - 对于CLIP和SigLIP模型，训练时分别沿用InfoNCE损失函数和Sigmoid损失函数来对齐文本特征和重新计算后的图像特征 [9] - 对于BLIP-2模型（ELIP-B），由文本引导的图像特征被输入Q-Former与文本进行交叉注意力计算，最终由ITM Head预测图文匹配度，训练沿用BLIP-2的BCE损失函数 [11] 训练数据创新 - 针对学术界GPU资源有限导致训练批次大小（batch size）较小的问题，作者提出了一种硬样本训练批次构建方法 [13] - 该方法预先计算训练图片和对应文字标题的CLIP特征，然后将特征相似的图文对聚集在一起，形成一个包含挑战性样本的训练批次，以提升模型的分辨能力 [13][15] 新的评测数据集 - 除了COCO和Flickr等标准测试集，作者引入了两个新的分布外（OOD）测试集：Occluded COCO和ImageNet-R，以评估模型的泛化能力 [17][18] - Occluded COCO数据集中的正样本包含被遮挡的物体，ImageNet-R数据集中的正样本包含来自不常见领域的物体 [18] 实验结果 - 在COCO数据集上，ELIP-C将CLIP的平均Recall从60.58提升至65.71；ELIP-S将SigLIP的平均Recall从71.74提升至77.45；ELIP-S-2将SigLIP-2的平均Recall从73.72提升至78.82 [21] - 在Flickr数据集上，ELIP-C将CLIP的平均Recall从82.97提升至85.87；ELIP-S将SigLIP的平均Recall从92.37提升至94.98；ELIP-S-2将SigLIP-2的平均Recall从92.92提升至94.88 [21] - ELIP-B将BLIP-2在COCO上的平均Recall从82.87提升至83.02，在Flickr上从95.62提升至95.88，表现超过了最新的Q-Pert方法 [21] - 在OOD测试集上，所有ELIP变体均取得了零样本泛化提升，例如ELIP-S在Occluded COCO上的零样本性能为64.58，经过微调后可达71.99 [22] - 注意力图分析表明，当文本查询与图片相关时，ELIP能够增强模型对文字描述相关区域的注意力 [23]

视觉语言大模型

多模态图片检索

Artificial Intelligence

Artificial Intelligence

ELIP

CLIP

SigLIP

高德TrafficVLM模型再升级：AI赋予“天眼”视角可预知全局路况当AI“看见”实时交通：智能导航体验或被重新定义

扬子晚报网· 2025-09-19 16:39

核心技术能力 - 依托空间智能架构实现TrafficVLM模型升级实现全局交通态势感知 [1][2] - 基于通义Qwen-VL视觉语言模型底座结合海量交通视觉数据进行强化学习训练 [9] - 具备车辆车道线交通信号灯状态及车路相对位置的精准识别能力 [11] - 能分析车辆互动关系如变道犹豫行为及减速传导效应 [11] 技术实现机制 - 以分钟级频率对沿途交通态势进行实时推理 [2] - 通过交通孪生还原能力将实时数据转化为动态孪生视频流 [5] - 在任意地区任意尺度下构建与现实同步的数字交通世界 [5] - 结合实时交通流与历史动态分析拥堵成因及发展趋势 [11] 应用场景效果 - 可预判3公里外突发事故导致的拥堵蔓延情况 [4] - 实时推送最优通行建议并提供高清实景图像验证 [4] - 实现从被动接收提示到主动洞察全局的导航体验升级 [4] - 覆盖微观路段（如潮白河桥）至宏观区域（如演唱会期间鸟巢）的交通分析 [7][9] 系统架构创新 - 交通孪生还原与视觉语言大模型技术深度融合 [11] - 形成从感知到决策的完整智能闭环 [9][11] - 将复杂交通博弈转化为可视化可感知的决策信息 [11] - 实现AI对现实世界任意区域交通脉搏的实时洞察 [5]

闭环端到端暴涨20%！华科&小米打造开源框架ORION

自动驾驶之心· 2025-08-31 00:03

核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析包括场景描述关键物体行为分析和动作推理并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

量子位· 2025-06-02 12:13

视觉语言大模型的空间推理能力 - 当前视觉语言大模型（VLMs）在大规模图文数据中学习到的空间信息是片段化的，仅限于静态视角的理解，缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时，模型表现不佳，缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench，涵盖五种任务类型，覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对，通过自动化3D标注流水线生成精确方向标签，覆盖丰富3D场景 [4][16] - 五大任务包括：物体相对方向识别、人物视线方向识别（相机视角），以及从人类视角出发的三类任务（物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别） [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足，整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%，远低于物体相对方向判断的38.9%，但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角，如GPT-4o在人物视角平均准确率为36.29%，高于摄像头视角的33.57% [25] Multi-View Spatial Model（MVSM） - 研究团队开发MVSM专门用于跨视角空间理解优化，采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升，验证针对性训练的有效性 [5][28] - 在VSI-App评估中，MVSM在室内场景表现提升20%，户外场景提升4.00%，展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具，重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡，为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]

Multi-View Spatial Model (MVSM)

Multi-View Spatial Model (MVSM)

GPT-4o