2025年中国多模态大模型行业核心技术现状关键在表征、翻译、对齐、融合、协同技术【组图】

多模态大模型核心技术-表征 - 表征学习是多模态任务的基础，涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前，CV领域主要使用CNN，NLP领域主要使用LSTM，多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能，2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态，如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译，如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态，如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务，如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性，如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性，深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题，降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段，侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能，应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态，晚期融合在决策层面结合结果，混合融合综合两者优势 [11] - 神经网络成为主流融合方式，但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型，分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联（如音视频同源），非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据，已在视觉分类、动作识别和语义相似度估计中应用 [15]