多模态大语言模型(MLLM)行业技术演进 - 多模态大型语言模型(MLLM)已成为新兴研究热点,其通过将大型语言模型(LLM)作为大脑来执行多模态任务,展现出如基于图像撰写故事和无OCR数学推理等新能力,这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练,以促进不同模态间的对齐,对齐数据集通常为图像文本对或自动语音识别数据集,常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型,包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等,覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块,将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记(例如64个),从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中,训练过程中所有语言模型层均利用了视觉信息,门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列,限制文本标记仅能关注其前导图像/视频对应的视觉标记,实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要,例如在Flamingo中,去除交错的图像文本数据集M3W会导致性能下降超过17%,而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略,第一阶段冻结图像编码器和LLM,训练轻量级Q-Former进行视觉-语言表示学习;第二阶段引导视觉到语言的生成学习,实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合,行业采用数据集加权采样策略,采样概率与数据集大小的平方根成正比,例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大,例如在LLaVA中,未进行指令微调的模型性能相对下降高达61.1%,而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据,例如结合GPT-4生成的数据,能显著提升模型的视觉推理、OCR和世界知识能力,LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量,还包括输入图像分辨率的提升,例如Monkey模型将输入分辨率有效提升至896x1344像素,无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担,行业提出多种创新架构,如LLaVA-UHD采用模块化视觉编码策略,将图像分割为可变大小切片,并通过压缩层减少视觉标记数量,在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入,通过混合专家(MoE)层,在推理时仅激活排名靠前的专家,使模型在保持约3B稀疏激活参数的情况下,性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视,例如CogVLM在语言模型的每一层引入可训练的视觉专家模块,实现视觉与语言特征的深层对齐,相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力,例如LLaVAR通过增强视觉指令调优流程,在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展,NExT-GPT系统利用LLM作为核心,通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容,构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务,LLaMA-VID提出用两个标记(上下文标记和内容标记)表示每一帧,显著减少计算负担,支持长达一小时的视频输入 [102][103]
万字长文总结多模态大模型最新进展(Modality Bridging篇)
自动驾驶之心·2025-11-15 11:03