Workflow
多模态大模型
icon
搜索文档
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]
预见 2025:《2025 年中国多模态大模型行业全景图谱》(附市场现状、竞争格局和发展趋势等)
搜狐财经· 2025-06-06 22:09
产业概况 - 多模态指集成和处理两种或以上不同类型信息或数据的技术,涉及文本、图像、视频、音频和传感器数据,旨在提升任务性能、用户体验和数据分析结果 [1] - 多模态大型语言模型(MLLMs)结合大型语言模型(LLMs)的自然语言处理能力与其他模态数据的理解与生成能力,提供更丰富的交互体验 [1] 产业链剖析 - 产业链分为基础层(硬件和基础软件)、模型层(CLIP、BLIP等模型)和应用层(生产制造、生活娱乐、公共服务等领域) [3] - 上游硬件参与者包括英特尔、英伟达,基础软件参与者有华为、腾讯等;中游模型层参与者包括OpenAI、Meta、阿里、百度等;下游应用层参与者包括用友网络、京东、阿里巴巴等 [3] 行业发展历程 - 中国多模态大模型行业依托政府支持、企业投入和学术力量,从基础研究到产业应用全面发展,未来有望从“追赶”到“引领”全球技术发展 [3] 行业政策背景 - 政策支持包括资金支持、简化流程、建立共享资源数据库等,旨在提升自主研发能力和科技成果转化效率 [4] - 具体政策包括《新一代人工智能示范应用场景的通知》(2022年8月)、《虚拟现实与行业应用融合发展行动计划》(2022年10月)等,涵盖算力资源调度、伦理规范、标准体系建设等 [4] 行业发展现状 - 国内大模型企业需完成《互联网信息服务深度合成管理规定》或《生成式人工智能服务管理暂行办法》备案 [6][7] - 截至2025年4月,国内已有327个生成式AI大模型通过备案,227个完成登记 [8] - 早期商业模式为SaaS和PaaS模式,现主流为MaaS模式(模型即服务),通过API提供服务 [9] - 收费模式以token计价和订阅模式为主,价格差异较大 [10] - 2023年人工智能核心产业规模达5000亿元,大模型市场规模132.3亿元,同比增长110%;2024年大模型市场规模预计205亿元,多模态占比22%,市场规模45.1亿元 [11][14] 行业竞争格局 - 全国327个大模型通过备案,北京、上海、广东分别通过105、66、39个,京沪粤浙苏占比近80% [14] - 百度处于领先地位,算力能级与排名呈正相关,第一梯队算力能级为第四梯队两倍 [16] 产业发展前景 - 多模态大模型将成为未来发展重点,技术渗透率持续提高,预计2030年市场规模达969亿元,复合增速超65% [18][19]
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位· 2025-06-05 13:00
核心观点 - 上海人工智能实验室联合多家单位提出全新通用具身智能大脑框架VeBrain,集成视觉感知、空间推理和机器人控制能力,实现多模态大模型对物理实体的直接操控[1] - VeBrain在视觉感知、空间推理和机器人控制能力上同时取得最先进性能,相比现有框架平均提升31.5%[4][17] - 模型通过统一语言建模范式、机器人适配器模块和高质量数据集VeBrain-600k实现三大能力协同[2][9][10] 技术架构创新 - 将机器人控制重构为关键点检测和技能识别两个通用MLLM子任务,实现统一输入输出空间[5][6][7] - 机器人适配器模块由点追踪器、运动控制器、策略执行器和动态接管组成,实现文本到动作的闭环控制[9][13] - 提出多模态链式思维标注方法,提升模型组合推理能力[2][10] 数据集构建 - 构建VeBrain-600k数据集,包含60万条指令数据,覆盖多模态理解(20万条)、空间推理(31.2万条)和机器人控制(8.8万条)三类任务[10][14] - 数据采用GPT-4o与Gemini自动生成推理过程并经专家复核,提升任务复杂度[10] 性能表现 多模态能力 - 在13个多模态benchmark上平均得分77.1,超越GPT-4o(76.5)和Qwen2.5-VL(76.9)[19] - 在MMVet(+5.6%)、DocVQA(94.4分)等任务表现突出[19] 空间推理能力 - 在ScanQA(CIDEr 101.5)和ScanRefer(Acc@0.25 66.4%)刷新纪录,超越专业模型GPT4Scene-HDM[20][21] - VSI基准测试平均得分86.4,比Qwen2.5-VL高出44.3%[22] 机器人控制 - 在复杂寻找任务成功率80%,相比现有MLLM提升70%[16] - 四足机器人长程任务成功率提升50%,机械臂任务表现显著优于π0模型[24]
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 13:21
核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展,支持单张显卡处理万帧视频输入,编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL,达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术,显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct,实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频,DTS模块融合时序特征,最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现:在MLVU(74.9)、VideoMME(66.8)、LVBench(48.6)、Charades-STA(73.0)等基准超越720亿参数大模型 [17][18] - 处理长度:单张80GB显卡支持万帧视频输入,24GB显卡支持千帧处理 [19][23] - 运算效率:2048帧视频预填充仅12秒,时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测(如肢体冲突识别)、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题(如"红色电话"识别)和宏观事件判断(如"顾客与店员冲突") [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 16:57
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 12:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
量子位· 2025-05-31 11:45
核心观点 - 360人工智能研究团队提出FG-CLIP模型,显著缓解CLIP的"视觉近视"问题,使其更关注细粒度特征学习[1] - 模型成功关键在于高质量数据,团队开源FineHARD数据集,包含1200万张图像、4000万边界框及1000万组细粒度难负样本[3][4] - FineHARD数据集以细粒度+难负样本为核心特点,显著提升模型在下游任务表现[4][6] - FG-CLIP已被ICML25接收,在细粒度理解、开放词汇对象检测等任务中优于原始CLIP和其他先进方法[4] 数据集构建 - 数据规模:1200万张高质量图像,4000万边界框标注,1000万组细粒度难负样本[7][11] - 计算资源:采用160×910B算力NPU集群,7天内完成数据清洗与多模态对齐[7] - 文本描述:基于GRIT数据集优化,平均描述长度从20词扩展至150词以上,提升语义密度[8][11] - 边界框增强:通过Yolo-World模型生成额外边界框,NMS技术过滤低质量预测(置信度>0.4)[9] 技术特点 - 全局细粒度对齐:为每张图像生成包含场景背景、对象属性的长文本描述(平均150词)[11] - 局部细粒度对齐:开放世界目标检测提取4000万bounding box及对应区域级描述[11] - 难负样本生成:基于属性扰动方法生成1000万组样本,人工复核显示98.9%符合质量标准[14][15] - 多样性优势:在243k图像子集中包含21k独立类别标签,显著高于V3Det的13k[25] 应用前景 - 多模态大模型训练:提升跨模态理解与生成能力,特别是图像细节理解[26] - 具身智能系统:结合细粒度空间描述,增强机器人环境感知与操作指令解析[26] - 3D场景建模:为虚拟场景重建提供高精度语义锚点,加速AR/VR技术发展[26] - 细粒度识别:通过难负样本对抗训练提升近似类别判别能力,推动安防零售应用[27] 数据集对比 - 规模优势:边界框数量(4000万)远超COCO(150万),图像数量(1200万)显著领先[22] - 质量优势:细粒度标注和难负样本设计提升模型性能表现[22] - 多样性优势:相同图像规模下独立类别标签数量显著高于V3Det等专业数据集[25]
云从科技多模态大模型登顶OpenCompass全球多模态榜单
快讯· 2025-05-29 15:12
云从科技多模态大模型表现 - 公司自主研发的从容大模型以80.7分综合成绩登顶OpenCompass全球多模态榜单榜首 [1] - 模型在8大核心数据集测试中表现突出,涵盖视觉感知、认知理解与跨领域应用 [1] - 在医学健康、数理逻辑、艺术设计等十余个专业领域展示出领先能力 [1] 行业技术进展 - 国际评测平台OpenCompass最新榜单显示多模态AI技术竞争加剧 [1] - 视觉感知与跨领域应用成为多模态模型的核心评测维度 [1]