多模态大语言模型（MLLMs） - 财报，业绩电话会，研报，新闻

多模态大语言模型（MLLMs）

搜索文档

自动驾驶之心· 2025-09-25 07:33

文章核心观点 - 大型基础模型（LFMs）为自动驾驶轨迹预测带来了范式转变，从传统的信号级预测转向语义级推理，通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势：强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力，显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著，该技术在实际应用中仍面临计算延迟高（自回归解码延迟常超过100毫秒，难以满足车辆控制周期低于50毫秒的严格要求）、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法，到深度学习方法，再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法（如卡尔曼滤波器、高斯过程）计算高效但难以处理复杂交互场景，深度学习方法（端到端架构）能自动提取时空特征并生成多模态概率输出，但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色，但训练过程复杂且不稳定，存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**：通过提示工程将轨迹数据编码为结构化文本（如“自车速度：12m/s”），或利用轨迹离散化技术（如VQ-VAE）将连续轨迹映射为离散符号序列，使LLM能够理解运动行为 [12] - **多模态融合**：设计共享的场景编码器（如BEV编码器）将图像、LiDAR点云和地图信息映射为统一表示，再与语言指令进行交叉注意力融合，典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**：利用LLM的常识知识，通过链式思维提示和规则注入（如交通规则）使轨迹生成过程透明且合规，例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**：行人预测广泛使用ETH/UCY数据集，车辆轨迹预测则以Waymo Open Motion Dataset（WOMD）、nuScenes和Argoverse为主流基准，新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**：车辆轨迹预测主要关注L2距离（预测终点与真实终点的欧氏距离）和碰撞率，行人预测则主要使用minADE和minFDE（计算K=20个预测值中的最佳结果） [17] - **性能对比**：基于LLM的方法在关键指标上显著优于传统深度学习方法，例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%，而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术（如非自回归解码）以满足实时控制需求，解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型，通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究，使轨迹预测建立在因果机制之上，而不仅仅是关联模式 [21]

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

机器之心· 2025-08-21 21:08

数据集核心创新 - 提出ECD合成图表数据集包含10,000+图表和321.5k问答对规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线涵盖单图生成、多子图组合、视觉多样化等环节确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型覆盖经济学/天文学/医学等25个学科主题为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升：LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出：最低FID得分表明与真实图表分布最接近最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤包含描述类与推理类问题例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制保证语义一致性支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库添加注释/阴影/Zoom-in视窗等元素提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现推动图表自动化生成技术发展[17][25]

ECD（Effective Chart Dataset）

ECD（Effective Chart Dataset）

X-SAM：从「分割一切」到「任意分割」：统一图像分割多模态大模型，在20+个图像分割数据集上均达SoTA

机器之心· 2025-08-19 14:33

核心观点 - X-SAM是首个统一的分割多模态大语言模型，将分割范式从「分割万物」扩展到「任意分割」，实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割（VGS）任务和统一架构设计，X-SAM在20+数据集上达到最先进性能，覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术，显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入，多模态大语言模型(MLLMs)无法处理像素级任务，限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力，解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计架构设计 - 采用双编码器设计：SigLIP2-so400m提取全局特征，SAM-L提取细粒度特征，通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息（1/32、1/16、1/8尺度），Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询（通用/指代/推理分割）和视觉查询（点/涂鸦/边界框），输出采用<SEG>标记统一表示 [7][8][13] 训练策略 - 三阶段训练：1)分割器微调（COCO-Panoptic数据集） 2)对齐预训练（LLaVA-558K数据集） 3)混合微调（多数据集协同） [16] - 数据集平衡重采样策略：通过超参数t控制过采样比例，改善少样本数据集（0.2K样本）性能 [17] 实验结果性能对比 - 指代分割任务：RefCOCO/+/g测试集达到85.1/78.0/83.8，超越GLaMM(79.5/72.6/74.2)和PSALM(83.6/72.9/73.8) [23] - 对话生成分割：mIoU指标达69.4（Val）/69.0（Test），显著优于GLaMM-7BT(65.8/64.6) [23] - 视觉定位分割：点提示AP50达72.5，较PSALM(3.3)提升20倍 [23] 多模态能力 - 图文理解任务：SEED-Bench(69.3)、POPE(89.3)、AI2D(62.6)分数全面领先LLaVA-1.5等基线模型 [23] 未来方向 - 视频领域扩展：与SAM2集成实现图像/视频统一分割，引入时序信息构建视频分割新任务 [27] - 技术应用前景：为通用视觉理解系统奠定基础，开辟开放场景感知研究新方向 [27]

多模态大语言模型（MLLMs）

图像分割

X-SAM

Segment Anything Model (SAM)

多模态大语言模型（MLLMs）

图像分割

X-SAM

Segment Anything Model (SAM)

穆尧团队最新！RoboTwin 2.0：用于鲁棒双臂操作的可扩展数据基准

自动驾驶之心· 2025-06-24 20:41

核心观点 - RoboTwin 2.0是一个可扩展的仿真框架，旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战，通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化（杂乱程度、光照、背景、桌面高度和语言指令），显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹，覆盖五种机器人实体，实证显示代码生成成功率提高10.9%，真实任务性能提升367%[4] 方法创新自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化，通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中，RoboTwin 2.0+MM FB配置达到71.3%的成功率，较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱：基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化：随机化色温、光源类型（点光源/区域光源）等参数模拟现实光照条件[13] - 语言指令：通过MLLMs自动生成多样化任务指令和物体描述，覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人（7-DoF/6-DoF）定制抓取策略，使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息（抓取点/功能点）支持跨实体部署，平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例，其中534个通过RGB到3D重建生成，均标注语义和操作相关标签（放置点/抓取轴）[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体，包含10万+轨迹（每任务100条干净轨迹+400条随机化轨迹）[24] 性能验证 - 仿真到现实迁移：添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型（如RDT）在Hard条件下保持优势，非预训练模型性能下降显著[37]

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

量子位· 2025-06-16 18:30

多模态数学推理的挑战与突破传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳，易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈：粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制，通过计算隐藏层相似度实时选取最相关视觉token，实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制，可灵活捕捉几何图形、坐标轴等结构化数学元素，支持任意形状视觉区域选择[9] - 采用轻量化架构设计，无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集，通过四步流程实现token级图文对齐标注：网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略：文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后，MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互，推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合，为结构化视觉推理建立新范式[17] - 方法论具备扩展性，未来可迁移至科学图表解析、工程图纸理解等专业领域[17]

ICML 2025 Spotlight｜南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架，准确率提高20%

机器之心· 2025-05-17 00:31

多模态大语言模型高分辨率图像感知技术核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架，通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题，显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括：Spatial-Awareness Layout算法维持图像块空间关系，RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升，吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节现有方法局限性 - 基于裁剪的方法需处理300K视觉token，超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样，导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰，推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度，筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示：维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列，保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优，深度d增加时h(t)权重非线性增长 [22][23] 性能验证基准测试结果 - **开源模型提升**：LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**：超越GPT-4o在V*Bench的66%准确率，达91.1% [26] - **吞吐量优势**：4.2倍于DC2方法(2.1)，准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小)，FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下，FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈，为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs，降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

征稿倒计时！CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战

量子位· 2025-03-08 11:35

会议概况 - IEEE/CVF国际计算机视觉与模式识别会议（CVPR 2025）将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X"，聚焦基础模型（FM）及其在特定领域应用（XFM）中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型（FM）凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型（XFM）如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性，可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括：XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点：摘要提交截止2025年3月15日论文提交截止2025年3月20日录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型（MLLMs）的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]