多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型向能听、会看、可交互的智能体的深刻变革,其核心在于多模态大模型的发展[1] - 当前主流的多模态大模型普遍遵循“三位一体”的黄金架构,由视觉编码器(眼睛)、大语言模型(大脑)和连接器(桥梁)协同工作[3][5][6] 视觉编码器(Vision Transformer) - Vision Transformer是视觉编码的核心技术,它摒弃传统卷积神经网络,将图像视为序列化文本来处理[7] - ViT的工作流程包括:将图像分割成固定大小的图块序列、将图块展平并线性投影为视觉词元向量、为词元注入位置信息以理解空间布局、最后通过Transformer编码器进行深度特征融合[9][10][11][12][15] - 现代ViT架构采用旋转位置编码来编码二维空间信息,这比处理一维文本的RoPE更为复杂,赋予了模型强大的尺寸泛化能力[13][14] 大语言模型(LLM)的认知中枢 - 在多模态架构中,LLM作为“大脑”接收由视觉和文本特征拼接而成的统一序列,并基于此进行自回归生成以输出回答[17][20][21] - LLM的输入是一个融合了视觉与文本信息的长序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列,使模型能在统一上下文中进行图文理解[21] - 模型生成答案时采用不同的解码策略,包括速度快的贪婪解码、平衡质量与成本的束搜索以及增加多样性的采样策略[26][27][29] - LLM自身架构也在进化,新一代模型如Qwen3-VL采用混合专家架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 连接器(Connector)的设计哲学 - 连接器负责弥合视觉与语言模态的语义鸿沟,将视觉特征投影到LLM能理解的向量空间[32][33] - 连接器设计主要分为两大流派:以LLaVA为代表的“极简线性投影”派,依赖强大LLM和后端融合;以BLIP-2的Q-Former为代表的“主动信息提炼”派,在信息进入LLM前进行压缩和提炼[34][36][37][38] - Q-Former通过一组可学习的查询向量,利用交叉注意力机制从冗长的原始视觉特征中提炼出高度浓缩的摘要信息,显著减轻了LLM的计算负担[40][42][44][45][51] 处理高分辨率信息的技术路线:LLaVA的AnyRes - LLaVA系列采用“扩展输入边界”的哲学,通过AnyRes技术在不改动核心模型的前提下处理高分辨率图像[55] - LLaVA-1.5-HD的策略是“全局+局部”协同:将高清图切分为多个高清晰度图块以保留局部细节,同时将原图降采样以获得全局上下文,最后将两路特征拼接输入LLM[56][58][59] - LLaVA-OneVision进一步提出高级AnyRes,通过双线性插值在特征空间“缝合”图块,更好地保留文档等场景的空间布局信息[60][62][68] 处理高分辨率信息的技术路线:Qwen3-VL的DeepStack - Qwen3-VL代表“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的处理流程中,实现多层次融合[64][66] - DeepStack-L将来自视觉编码器不同中间层的特征,动态注入到LLM的浅层,使不同抽象层级的视觉信息与语言处理阶段相匹配[66][69][97] - 实验表明,从LLM的浅层(如第0-4层)开始注入、间隔2-3层、总计注入约4层时效果最优[71][76] - Qwen3-VL的实现高效且优雅,直接从处理标准输入的同一视觉编码器的中间层提取特征进行注入,无需额外计算高分辨率图像[72][74][75][99] LLaVA系列架构演进分析 - LLaVA系列的核心哲学是“大道至简”,其初代版本就以“CLIP ViT + 线性投影层 + LLaMA”的极简架构开创了范式[80][81][83] - 从1.0到1.5的迭代务实而高效,包括将连接器升级为两层MLP、提升输入分辨率至336x336以及使用更大规模指令微调数据[84][88] - 该系列通过持续的数据优化和输入端工程创新(如AnyRes)推动性能提升,并最终在LLaVA-OneVision上实现了图像与视频的统一处理[92] Qwen3-VL架构演进分析 - Qwen3-VL代表“精巧设计,架构致胜”的路线,对模型内部进行深度改造以实现视觉与语言的持续深度交互[93][94] - 其核心是从传统的“入口拼接”范式转变为“多层注入”范式,通过DeepStack技术让视觉信息在LLM处理过程中多次参与[96][97] - 代码层面的演进清晰可见,Qwen3-VL相比前代引入了deepstack_merger_list模块,并将语言模型升级为混合专家架构[98][101] - 该模型集成了多项前沿技术,包括MRoPE-Interleave位置编码和文本时间戳对齐机制,以更好地处理视频时空信息[101][102] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但都极大推动了多模态性能边界,并共同指向视觉与文本更深层统一的方向[103][104] - 未来趋势包括:从感知向推理与执行演进,发展出能操作界面的视觉智能体能力;从静态图像向长视频和三维空间理解拓展;以及最终实现从预训练早期就开始的多模态真正统一[104][107]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心·2025-12-08 08:02