Workflow
Flamingo
icon
搜索文档
万字长文总结多模态大模型最新进展(Modality Bridging篇)
自动驾驶之心· 2025-11-15 11:03
多模态大语言模型(MLLM)行业技术演进 - 多模态大型语言模型(MLLM)已成为新兴研究热点,其通过将大型语言模型(LLM)作为大脑来执行多模态任务,展现出如基于图像撰写故事和无OCR数学推理等新能力,这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练,以促进不同模态间的对齐,对齐数据集通常为图像文本对或自动语音识别数据集,常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型,包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等,覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块,将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记(例如64个),从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中,训练过程中所有语言模型层均利用了视觉信息,门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列,限制文本标记仅能关注其前导图像/视频对应的视觉标记,实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要,例如在Flamingo中,去除交错的图像文本数据集M3W会导致性能下降超过17%,而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略,第一阶段冻结图像编码器和LLM,训练轻量级Q-Former进行视觉-语言表示学习;第二阶段引导视觉到语言的生成学习,实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合,行业采用数据集加权采样策略,采样概率与数据集大小的平方根成正比,例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大,例如在LLaVA中,未进行指令微调的模型性能相对下降高达61.1%,而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据,例如结合GPT-4生成的数据,能显著提升模型的视觉推理、OCR和世界知识能力,LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量,还包括输入图像分辨率的提升,例如Monkey模型将输入分辨率有效提升至896x1344像素,无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担,行业提出多种创新架构,如LLaVA-UHD采用模块化视觉编码策略,将图像分割为可变大小切片,并通过压缩层减少视觉标记数量,在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入,通过混合专家(MoE)层,在推理时仅激活排名靠前的专家,使模型在保持约3B稀疏激活参数的情况下,性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视,例如CogVLM在语言模型的每一层引入可训练的视觉专家模块,实现视觉与语言特征的深层对齐,相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力,例如LLaVAR通过增强视觉指令调优流程,在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展,NExT-GPT系统利用LLM作为核心,通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容,构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务,LLaMA-VID提出用两个标记(上下文标记和内容标记)表示每一帧,显著减少计算负担,支持长达一小时的视频输入 [102][103]
2025年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色【组图】
前瞻网· 2025-05-22 16:58
多模态大模型技术概述 - 视觉+语言多模态大模型的主流方法是通过预训练的大语言模型和图像编码器结合图文特征对齐模块实现跨模态理解减少对高质量图文对数据的依赖[1] - 行业主要上市公司包括阿里巴巴百度腾讯科大讯飞万兴科技三六零昆仑万维云从科技拓尔思等[1] CLIP模型技术特点 - CLIP采用对比学习方法连接图像和文本特征通过文本编码器实现zero-shot视觉分类[2] - 使用句子模板(prompt engineering)作为分类标签显著提升效果例如"A photo of a..."的句式结构[2] Flamingo模型架构 - Flamingo整合CLIP与语言模型新增技术使模型能基于视觉和文本输入生成文本响应[5] - 训练使用4类数据集包括2种(图像文本)对1种(视频文本)对及交错图像文本数据集[5] BLIP模型创新 - BLIP统一视觉语言任务的理解与生成能力通过自监督引导学习增强跨模态性能[7] - 相比CLIP新增图像生成视觉问答图像描述等复杂任务处理能力[7] LLaMA多模态实现 - LLaMA采用CLIP ViT-L/14视觉编码器+语言解码器架构通过映射矩阵将视觉特征转化为Token[8] - 可替换基础映射层为gated cross-attention或Q-former等复杂网络提升性能[8] 行业研究资源 - 前瞻产业研究院提供《全球及中国多模态大模型行业发展前景与投资战略规划分析报告》[10] - 其他服务包括产业新赛道研究IPO咨询专精特新企业申报等解决方案[12]