Workflow
多模态大模型
icon
搜索文档
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 12:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
量子位· 2025-05-31 11:45
核心观点 - 360人工智能研究团队提出FG-CLIP模型,显著缓解CLIP的"视觉近视"问题,使其更关注细粒度特征学习[1] - 模型成功关键在于高质量数据,团队开源FineHARD数据集,包含1200万张图像、4000万边界框及1000万组细粒度难负样本[3][4] - FineHARD数据集以细粒度+难负样本为核心特点,显著提升模型在下游任务表现[4][6] - FG-CLIP已被ICML25接收,在细粒度理解、开放词汇对象检测等任务中优于原始CLIP和其他先进方法[4] 数据集构建 - 数据规模:1200万张高质量图像,4000万边界框标注,1000万组细粒度难负样本[7][11] - 计算资源:采用160×910B算力NPU集群,7天内完成数据清洗与多模态对齐[7] - 文本描述:基于GRIT数据集优化,平均描述长度从20词扩展至150词以上,提升语义密度[8][11] - 边界框增强:通过Yolo-World模型生成额外边界框,NMS技术过滤低质量预测(置信度>0.4)[9] 技术特点 - 全局细粒度对齐:为每张图像生成包含场景背景、对象属性的长文本描述(平均150词)[11] - 局部细粒度对齐:开放世界目标检测提取4000万bounding box及对应区域级描述[11] - 难负样本生成:基于属性扰动方法生成1000万组样本,人工复核显示98.9%符合质量标准[14][15] - 多样性优势:在243k图像子集中包含21k独立类别标签,显著高于V3Det的13k[25] 应用前景 - 多模态大模型训练:提升跨模态理解与生成能力,特别是图像细节理解[26] - 具身智能系统:结合细粒度空间描述,增强机器人环境感知与操作指令解析[26] - 3D场景建模:为虚拟场景重建提供高精度语义锚点,加速AR/VR技术发展[26] - 细粒度识别:通过难负样本对抗训练提升近似类别判别能力,推动安防零售应用[27] 数据集对比 - 规模优势:边界框数量(4000万)远超COCO(150万),图像数量(1200万)显著领先[22] - 质量优势:细粒度标注和难负样本设计提升模型性能表现[22] - 多样性优势:相同图像规模下独立类别标签数量显著高于V3Det等专业数据集[25]
云从科技多模态大模型登顶OpenCompass全球多模态榜单
快讯· 2025-05-29 15:12
云从科技多模态大模型表现 - 公司自主研发的从容大模型以80.7分综合成绩登顶OpenCompass全球多模态榜单榜首 [1] - 模型在8大核心数据集测试中表现突出,涵盖视觉感知、认知理解与跨领域应用 [1] - 在医学健康、数理逻辑、艺术设计等十余个专业领域展示出领先能力 [1] 行业技术进展 - 国际评测平台OpenCompass最新榜单显示多模态AI技术竞争加剧 [1] - 视觉感知与跨领域应用成为多模态模型的核心评测维度 [1]
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
产业信息网· 2025-05-29 09:47
多模态大模型行业定义及分类 - 多模态大模型是能够同时处理和理解多种模态数据(如文本、图像、音频、视频、3D模型等)的大规模人工智能模型,通过深度学习技术实现跨模态信息融合与推理 [2] - 与传统单一模态模型相比,多模态大模型更像全能翻译官,能够将不同模态信息融会贯通,更准确地处理复杂任务 [2] 多模态大模型行业发展历程 - 行业经历了任务导向阶段、视觉-语言预训练阶段和多模态大模型阶段 [4] - 多模态大模型阶段已实现更灵活的交互方式,强调跨模态理解与生成能力同步提升 [4] 多模态大模型行业发展现状 - 2024年中国多模态大模型市场规模为156.3亿元,较2023年增加65.4亿元,预计2025年达234.8亿元 [6] - 数字人领域应用份额最大(24%),其次是游戏与广告商拍(各13%),智能营销和社交媒体(各10%) [8] 多模态大模型行业产业链 - 上游包括AI芯片、GPU/FPGA/CPU/ASIC、服务器等硬件及基础软件 [10] - 中游为多模态大模型产品(如CLIP、BLIP、LLaMA等) [10] - 下游应用于工业、农业、金融科技等生产制造领域,教育、游戏、传媒等生活娱乐领域,基建、交通、医疗等公共服务领域 [10] - AI芯片市场规模从2019年116亿元增长至2024年1447亿元 [12] - 游戏领域2024年销售收入达3257.83亿元,用户规模6.74亿人 [14] 多模态大模型行业竞争格局 - 主流大模型包括中科院紫东太初、华为盘古、百度文心、腾讯混元、阿里通义、科大讯飞星火等 [16] - Kimi、DeepSeek等通过技术优化将训练成本控制在3000-6000万美元 [16] - 百度文心大模型4.5是首个原生多模态模型,具备多模态理解和高情商特点 [16] - 腾讯混元大模型采用动态路由机制,训练成本降低40% [16] - 阿里通义大模型在医疗、司法、文化传播等领域落地应用 [16] 多模态大模型行业发展趋势 - 多模态大模型正成为推动相关产业创新发展的重要力量,能提供更丰富和个性化的服务体验 [19] - 未来将实现更自然高效的人机协作,在金融分析、智能客服、教育辅导、内容创作等场景展现多任务处理能力 [19] - 技术发展将呈现更加多元和深入的趋势,模型将更智能、更人性化 [19]
每日市场观察-20250528
财达证券· 2025-05-28 21:47
市场表现 - 5月28日市场延续跌势,成交额1.02万亿,较上一交易日减少约100亿,超八成个股涨跌幅局限于3%以内[1] - 5月27日沪指跌0.18%,深成指跌0.61%,创业板指跌0.68%[2] 资金流向 - 5月27日上证净流入10.27亿元,深证净流出20.48亿元,化学制药、计算机设备、农化制品主力资金流入前三,工业金属、半导体、乘用车主力资金流出排名前三[4] 消息面 - 1 - 4月全国规模以上工业企业利润总额21170.2亿元,同比增长1.4%,国有控股企业利润总额同比下降4.4%,股份制企业增长1.1%,外商及港澳台投资企业增长2.5%,私营企业增长4.3%[5] - 5月26日穆迪维持中国主权信用评级“A1”和负面展望不变,财政部称是对中国经济向好前景的正面反映[7] 行业动态 - 2025年第一季度非洲智能手机市场出货量同比增长6%达1940万部,预计全年增长3%,传音一季度出货量同比下滑5%[8][9] - 上海首个交通领域多模态大模型“通达”问世,有望让路口通行效率提升15%[10][11] 基金动态 - 首批26只新型浮动费率基金中有16只5月27日开启发行,6月底前基本完成募集,部分基金公司将发行重心放在6月初[12] - 首批基于业绩比较基准的浮动费率产品启动发行,中国银行推出认购费一折优惠让利投资者[13]
整理:每日科技要闻速递(5月28日)
快讯· 2025-05-28 07:27
新能源汽车 - 比亚迪刀片电池提前通过新国标 [2] - 小马智行与迪拜道路交通管理局达成战略合作 [2] - 小米SU7 Ultra锁单量达到2.3万辆 [2] - 部分车企参与研讨会讨论"零公里"二手车等议题 [2] - 长安汽车董事长预计行业竞争将在2年内回归良性环境 [2] 集成电路(芯片) - 三星计划2028年推出玻璃中介层 [2] - 三星调整HBM团队组织架构并押宝定制化HBM [2] - 三星将在6月后停止接受多层单元NAND订单 [2] - 台积电将生产基于MicroLED的光通信互连产品 [2] - 台积电在德国慕尼黑设立欧洲芯片设计中心 [2] 人工智能 - 上海推出首个交通领域多模态大模型,路口通行效率有望提升15% [2] - 英伟达供应商解决机架过热问题并开始出货Blackwell芯片 [2] - 腾讯云推出GooseFS 2.0,为人工智能业务场景提供全面支持 [2] 其他 - Salesforce拟80亿美元收购Informatica [2] - 非洲智能手机市场预计2025年实现3%增长 [2] - 抖音试行新规处理可能诱发"开盒"等事件的信息 [2] - 美国得州对苹果和谷歌应用商店实施年龄验证 [2] - Neuralink融资6亿美元,估值达90亿美元 [2] - 苹果计划发布专用视频游戏应用程序以增强游戏行业影响力 [2]
全日程公布|谷歌Veo 3惊艳发布后,这场CVPR分享会值得每个AI人「听个声」
机器之心· 2025-05-27 14:38
AI视频生成技术进展 - 谷歌发布新一代AI视频生成模型Veo 3,实现了高质量视频生成与音画同步功能,被评价为不亚于OpenAI Sora的跨时代产品,标志着AI视频进入"有声时代"[1] - AI社区通过架构创新和算力投入持续推动技术进步,视频生成领域从无声进化到有声,多模态领域向理解与生成大一统方向演进[2] 学术会议规模与质量 - CVPR 2025作为计算机视觉领域最重要国际会议之一,共收到13008份论文投稿,最终接收2878篇论文,整体接收率为22.1%[2] 技术研究专题与演讲嘉宾 - 中国科学院大学教授高林将分享基于混合表达与生成模型的可视媒体合成与编辑方法,介绍高斯泼溅技术的最新进展及其在数字人实时重光照等应用[8][10] - 北京航空航天大学副教授黄雷将从表征和学习视角探讨多模态大模型的统一之路,分析条件概率模型在建模任意问题的可行性[12] - 论文分享环节涵盖多模态驱动的人类动画、大规模人形角色自动绑定、通用机器人操作、长时视频理解、3D分割和视觉语言理解等多个前沿研究方向[4] 行业人才计划与资源投入 - 腾讯青云计划聚焦AI大模型等十大技术领域,提供不设上限的职级薪酬和定制化培养方案,开放核心业务机会和解锁前瞻性技术课题[17] - 京东TGT计划面向全球高校技术人才,依托京东丰富的产业布局,研究涵盖多模态大模型与应用、机器学习、具身智能等方向,提供充足算力资源和三导师培养机制[18] 行业交流平台与合作机会 - 黄大年茶思屋科技网站作为开放平台汇聚全球科学家和研究人员,推动科技创新交流[16] - 机器之心成功举办多场学术活动,为企业提供人才吸纳和品牌影响力提升的合作机会[20]
上海首个交通领域多模态大模型问世 有望让路口通行效率提升15%
快讯· 2025-05-27 11:07
公司成立与产品发布 - 上海首家国资背景垂直领域大模型企业中城交(上海)科技有限公司正式成立 [1] - 公司同时发布上海首个交通领域多模态大模型"通达大模型" [1] - "通达"是全市首个交通专用大模型 [1] 产品核心能力 - 具备"专家顾问"功能 为管理人员提供专业知识服务 [1] - 辅助交通组织管理 担当算法基石和中央大脑 [1] - 通过视频监控和物联网设备实时捕捉路口车流量变化及周边道路通行态势 [1] - 可在极短时间内完成海量数据模拟并生成交通信号优化方案 [1] 产品应用效果 - 在试点城市使路口通行效率提升15%左右 [1] - 改变传统依赖管理人员经验的交通信号调整模式 [1] - 被形容为交通管理的"千里眼"和"最强大脑" [1] 行业影响 - 标志着上海交通智能化的一次迭代升级 [1] - 为城市交通拥堵问题提供"智慧药方" [1]