Workflow
多模态大语言模型
icon
搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 20:41
核心观点 - RoboTwin 2.0是一个可扩展的仿真框架,旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战,通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化(杂乱程度、光照、背景、桌面高度和语言指令),显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹,覆盖五种机器人实体,实证显示代码生成成功率提高10.9%,真实任务性能提升367%[4] 方法创新 自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化,通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中,RoboTwin 2.0+MM FB配置达到71.3%的成功率,较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱:基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化:随机化色温、光源类型(点光源/区域光源)等参数模拟现实光照条件[13] - 语言指令:通过MLLMs自动生成多样化任务指令和物体描述,覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人(7-DoF/6-DoF)定制抓取策略,使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息(抓取点/功能点)支持跨实体部署,平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例,其中534个通过RGB到3D重建生成,均标注语义和操作相关标签(放置点/抓取轴)[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体,包含10万+轨迹(每任务100条干净轨迹+400条随机化轨迹)[24] 性能验证 - 仿真到现实迁移:添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型(如RDT)在Hard条件下保持优势,非预训练模型性能下降显著[37]
明略科技发布全球化广告测试及优化产品AdEff
证券日报网· 2025-06-20 15:18
本报讯 (记者李春莲)6月19日,北京明略昭辉科技有限公司(以下简称"明略科技")正式发布AI驱动 的全球化广告测试及优化产品——AdEff。该产品基于明略科技自主研发的超图多模态大语言模型 (HMLLM)开发,采用大模型及混合专家模型协同架构,可快速、准确预测消费者对广告的主观反应 和广告效果,并给出优化建议。 AdEff是生成式AI技术及智能体在营销服务领域的最新实践,也代表着未来营销工具发展的方向。谭北 平表示,AdEff接下来还将在品牌内容测量类型、技术优化、个性化适配,以及全球生态拓展方面持续 发力。 明略科技集团副总裁、秒针营销科学院院长、AdEff产品负责人谭北平在发布现场表示:"通过技术创 新,AdEff解决了企业在广告测试和优化环节长期以来面临的时间与成本难题,让创意行业拥有了全新 的效率工具。未来,秉持让内容测量速度更快、成本更优、与品牌更相关的使命,AdEff还会将更多品 牌生成内容纳入测量范畴。" 据谭北平介绍,依托明略科技自研的"超图多模态大语言模型(HMLLM)",协同混合专家模型, AdEff可以在短短十几分钟内,模拟消费者对广告创意的反馈,并给出针对性的优化建议。它可以帮助 企 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
机器之心报道 机器之心编辑部 刚刚,在美国田纳西州纳什维尔举办的 CVPR 2025 公布了最佳论文等奖项。 今年共有 14 篇论文入围最佳论文评选,最终 5 篇论文摘得奖项 ,包括 1 篇最佳论文 、 4 篇最佳论文荣誉提名 。此外,大会还颁发了 1 篇最佳学生论文 、 1 篇最 佳学生论文荣誉提名 。 根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文。相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率 约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。 计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席(AC)数量均创下新高。 今年前来现场参会的学者也超过 9000 人,他们来自 70 余个国家和地区。 CVPR 官方公布了各个细分领域的论文接收情况,如下图所示。可以看到,图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角 和传感器的 3D 以及基于单图像的 3D。 此次,最佳论文奖委员会成员中有 AI ...
科学家证实大模型能像人类一样“理解”事物
科技日报· 2025-06-11 06:45
在这项研究中,科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩"找不同"游 戏。实验人员从1854种常见物品中给出3个物品概念,要求选出最不搭的那个。通过分析高达470万次的 判断数据,科研人员首次绘制出了大模型的"思维导图"——"概念地图"。 传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正"理解"物体含义。"当前人工智能 可以区分猫狗图片,但这种'识别'与人类'理解'猫狗有什么本质区别,仍有待揭示。"论文通讯作者、中 国科学院自动化研究所研究员何晖光说。 科技日报北京6月10日电 (记者陆成宽)记者10日从中国科学院自动化研究所获悉,来自该所等单位的 科研人员首次证实,多模态大语言模型在训练过程中自己学会了"理解"事物,而且这种理解方式和人类 非常类似。这一发现为探索人工智能如何"思考"开辟了新路,也为未来打造像人类一样"理解"世界的人 工智能系统打下了基础。相关研究成果在线发表于《自然·机器智能》杂志。 人类智能的核心,就是能真正"理解"事物。当看到"狗"或"苹果"时,我们不仅能识别它们长什么样,如 大小、颜色、形状等,还能明白它们有什么用、能带给我们什么感受、有什么文化意 ...
中国科研团队研究发现:人工智能可以自发形成人类级认知
新京报· 2025-06-09 21:01
新京报讯(记者张璐)6月9日,记者从中国科学院自动化研究所获悉,科研人员结合行为实验与神经影 像分析,首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统。 相关研究成果发表于《自然·机器智能》。 人类能够对自然界中的物体进行概念化,这一认知能力长期以来被视为人类智能的核心。当我们看到 狗、汽车或苹果时,不仅能识别它们的物理特征,比如尺寸、颜色、形状等,还能理解其功能、情感价 值和文化意义,这种多维度的概念表征构成了人类认知的基石。 研究人员从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标签。研究发现, 这些维度是高度可解释的,且与大脑类别选择区域的神经活动模式显著相关。 研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义 标签和抽象概念。研究表明,大语言模型内部存在着类似人类对现实世界概念的理解。 随着ChatGPT等大语言模型(LLMs)的发展,一个根本性问题浮出水面:这些大模型能否从语言和多 模态数据中发展出类似人类的物体概念表征? 近日,中国科学院自动化研究所神经计算与脑机交互(NeuBCI)课题组与中国科学 ...
人工智能可自发形成人类级认知?中国团队最新研究首次证实
环球网资讯· 2025-06-09 20:57
人工智能认知研究 - 中国科学家团队首次证实多模态大语言模型能自发形成与人类高度相似的物体概念表征系统,实现人工智能人类级认知[1] - 研究由中国科学院自动化所神经计算与脑机交互团队联合脑科学与智能技术卓越创新中心完成,成果发表于《自然·机器智能》[1] - 该研究为AI认知科学开辟新路径,并为构建类人认知结构的AI系统提供理论框架[1] 研究实验设计 - 采用认知心理学经典"三选一异类识别任务",测试大模型与人类对1854种日常概念组合的识别差异[3][4] - 通过分析470万次行为判断数据构建AI大模型的"概念地图",并提取出66个可解释的"心智维度"[4] - 研究发现这些维度与大脑类别选择区域(如处理面孔、场景等信息的区域)神经活动模式显著相关[4] 模型与人类认知对比 - 多模态大模型在行为选择模式上与人类一致性更高,但人类决策更依赖视觉特征+语义信息,而大模型倾向语义标签+抽象概念[4] - 研究证实大语言模型内部存在类似人类对现实世界的概念理解,其"心智维度"与人类认知殊途同归[4] - 传统AI研究聚焦识别准确率,而本研究揭示AI"识别"与人类"理解"的本质区别仍需深入探索[3]
研究显示多模态大模型可自发形成类人的物体概念表征
快讯· 2025-06-09 18:40
记者今天(9日)从中国科学院自动化研究所获悉,该研究所神经计算与脑机交互课题组与中国科学院脑 科学与智能技术卓越创新中心联合团队结合行为实验与神经影像分析,首次证实多模态大语言模型 (MLLMs)能够自发形成与人类高度相似的物体概念表征系统。这项研究不仅为人工智能认知科学开辟 了新路径,更为构建类人认知结构的人工智能系统提供了理论框架。相关研究成果北京时间6月9日在国 际学术期刊《自然.机器智能》(Nature Machine Intelligence)发表。(央视新闻) ...
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导 师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为 主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。 近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝 试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。 继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自 回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。 研究团队将 LLaDA 作为语言基座,通过引入视觉编 ...