Workflow
多模态大语言模型(MLLMs)
icon
搜索文档
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 20:41
核心观点 - RoboTwin 2.0是一个可扩展的仿真框架,旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战,通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化(杂乱程度、光照、背景、桌面高度和语言指令),显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹,覆盖五种机器人实体,实证显示代码生成成功率提高10.9%,真实任务性能提升367%[4] 方法创新 自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化,通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中,RoboTwin 2.0+MM FB配置达到71.3%的成功率,较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱:基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化:随机化色温、光源类型(点光源/区域光源)等参数模拟现实光照条件[13] - 语言指令:通过MLLMs自动生成多样化任务指令和物体描述,覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人(7-DoF/6-DoF)定制抓取策略,使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息(抓取点/功能点)支持跨实体部署,平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例,其中534个通过RGB到3D重建生成,均标注语义和操作相关标签(放置点/抓取轴)[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体,包含10万+轨迹(每任务100条干净轨迹+400条随机化轨迹)[24] 性能验证 - 仿真到现实迁移:添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型(如RDT)在Hard条件下保持优势,非预训练模型性能下降显著[37]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-17 00:31
多模态大语言模型高分辨率图像感知技术 核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架,通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题,显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括:Spatial-Awareness Layout算法维持图像块空间关系,RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升,吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节 现有方法局限性 - 基于裁剪的方法需处理300K视觉token,超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样,导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰,推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度,筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示:维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列,保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优,深度d增加时h(t)权重非线性增长 [22][23] 性能验证 基准测试结果 - **开源模型提升**:LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**:超越GPT-4o在V*Bench的66%准确率,达91.1% [26] - **吞吐量优势**:4.2倍于DC2方法(2.1),准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小),FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下,FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈,为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs,降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 11:35
会议概况 - IEEE/CVF国际计算机视觉与模式识别会议(CVPR 2025)将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X",聚焦基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型(FM)凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型(XFM)如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性,可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括:XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点:摘要提交截止2025年3月15日 论文提交截止2025年3月20日 录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型(MLLMs)的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出 复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情 由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]