多模态大语言模型(MLLMs)
搜索文档
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-17 00:31
多模态大语言模型高分辨率图像感知技术 核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架,通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题,显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括:Spatial-Awareness Layout算法维持图像块空间关系,RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升,吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节 现有方法局限性 - 基于裁剪的方法需处理300K视觉token,超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样,导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰,推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度,筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示:维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列,保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优,深度d增加时h(t)权重非线性增长 [22][23] 性能验证 基准测试结果 - **开源模型提升**:LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**:超越GPT-4o在V*Bench的66%准确率,达91.1% [26] - **吞吐量优势**:4.2倍于DC2方法(2.1),准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小),FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下,FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈,为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs,降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 11:35
会议概况 - IEEE/CVF国际计算机视觉与模式识别会议(CVPR 2025)将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X",聚焦基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型(FM)凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型(XFM)如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性,可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括:XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点:摘要提交截止2025年3月15日 论文提交截止2025年3月20日 录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型(MLLMs)的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出 复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情 由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]