RoPE)
搜索文档
从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路
自动驾驶之心· 2025-12-09 08:03
多模态大模型(MLLM)的技术演进与核心架构 - 行业正经历从纯文本模型向能听、会看、可交互的“智能体”的深刻变革,AI通过多模态大模型(MLLM)开始感知和理解物理世界[1] - 在MLLM的赛道上,主要涌现出两条技术路线:以“大道至简”为核心的LLaVA系列和奉行“深度融合”设计思想的Qwen3-VL[2] MLLM的“三位一体”黄金架构 - 绝大多数主流多模态大模型遵循一个共同的“三位一体”架构,包括视觉编码器(眼睛)、大语言模型(大脑)和连接器(灵魂之桥)[3] - **视觉编码器(Vision Transformer, ViT)**:负责将输入的像素世界转化为机器能理解的数学表达(特征向量),其核心是将图像分割成不重叠的小方块(Patches)并进行编码[5][7] - **大语言模型(LLM)**:作为系统的“思考中枢”,负责最终的认知、推理和内容生成,接收融合了视觉与文本信息的序列进行思考[5][17] - **连接器(Connector)**:核心使命是将ViT输出的视觉特征精准投影到LLM能够理解的同一向量空间中,以解决“模态鸿沟”[6][32] AI的“眼睛”:Vision Transformer (ViT) 技术细节 - ViT的工作流程分为四步:图像分块、展平与线性投影、添加上下文信息、核心处理引擎(Transformer Encoder)[9][10][12][15] - 在图像分块步骤中,一张224x224像素的图像若使用16x16大小的图块分割,将被转换为总计196个图像块的一维序列[9] - 为让模型理解图像块的空间位置,现代ViT架构广泛采用旋转位置编码(RoPE),其通过旋转方式将位置信息动态融入注意力机制,具备极强的尺寸泛化能力[13][14] - ViT中的2D-RoPE与LLM中的1D-RoPE存在根本区别,前者需同时编码高度和宽度两个维度的信息,实现更为复杂[14] AI的“大脑”:大语言模型(LLM)的运作机制 - LLM接收的输入是一个融合了视觉与文本信息的一维长序列,例如196个视觉词元与5个文本词元拼接成的201长度序列[20][21] - LLM基于多模态上下文进行自回归生成,像滚雪球一样迭代预测下一个最有可能出现的词元,直到生成终止符[24][25] - 解码策略是一门艺术,主要包括:速度最快但可能陷入局部最优的贪婪解码、平衡质量与成本的束搜索(Beam Search)、以及增加多样性的采样策略(如Top-p采样)[26][27][29] - 作为“大脑”的LLM自身也在进化,以Qwen3-VL为代表的新一代MLLM,其语言模型部分开始采用更先进的混合专家(MoE)架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 灵魂之桥:“连接器”的设计哲学 - 连接器的设计主要分为两大流派:以LLaVA系列为代表的“极简线性翻译官”和以BLIP-2模型为代表的“主动型信息提炼师”Q-Former[34][36][38] - **极简线性翻译官**:通常是一个简单的多层感知机(MLP),核心任务是进行线性维度变换,将视觉特征映射到LLM的隐藏空间,依赖强大的LLM和海量数据完成融合[36][37] - **主动型信息提炼师(Q-Former)**:核心机制包括可学习的查询向量(Learnable Queries)和交叉注意力(Cross Attention),旨在进入LLM前对视觉信息进行深度提炼与压缩[40][42][45] - Q-Former通过一组固定数量(如32个)的可学习查询向量,像专家分析师一样从冗长的原始视觉特征(如196个)中提炼出信息高度浓缩的摘要向量,极大减轻了LLM的计算负担[43][44][51] 从像素到文字的完整数据旅程 - 数据从输入到输出的全过程是一场数据形态与矩阵维度的变换之旅,可通过具体示例追踪每一步的变化[48][49] - 以一张224x224的RGB图像和问题“What is in the image?”为例,其处理步骤包括:原始像素矩阵[1, 3, 224, 224] -> ViT分块后序列[1, 196, 768] -> ViT输出特征[1, 196, 768] -> 连接器投影对齐[1, 196, 4096] -> 文本嵌入[1, 5, 4096] -> 多模态拼接输入[1, 201, 4096] -> LLM生成输出答案[21][52] - 最关键的转变发生在多模态拼接步骤,视觉与文本词元被物理拼接,形成一个统一的“多模态现实”输入序列,使LLM的自注意力机制能实现真正的图文深度理解[21][58] 解决高分辨率处理矛盾的两条技术路线 - 面对让模型处理高分辨率信息而不牺牲效率的核心矛盾,业界探索出两条主要技术路线[54] - **路线一:LLaVA的AnyRes**:奉行“扩展输入边界”哲学,通过在输入端进行巧妙的工程设计,使模型能处理任意分辨率的图像[55] - **路线二:Qwen3-VL的DeepStack**:奉行“精巧设计,架构致胜”哲学,对模型核心架构进行改造,构建多层次的信息深度融合系统[64] 路线一详解:LLaVA的AnyRes技术 - LLaVA-1.5-HD采用“全局+局部”协同策略:将高清大图分割成多个高清晰度图块以保留局部细节,同时将原图降采样获得低分辨率全局概览图以提供上下文,最后将两路特征拼接送入LLM[56][59][62] - LLaVA-OneVision提出更先进的Higher AnyRes策略,通过双线性插值在特征空间中“缝合”离散图块,重建高分辨率特征图以更好地保留文档布局等空间关系,提升在文档视觉问答等任务上的表现[60][68] - LLaVA系列的演进展现了其通过迭代AnyRes这一前端技术,在不改动核心架构的前提下解决高分辨率处理难题的工程智慧[63] 路线二详解:Qwen3-VL的DeepStack技术 - DeepStack技术的核心是将视觉词元深度堆叠或注入到模型内部的不同层级,实现高效的深度融合,其提出两种模式:DeepStack-L(注入LLM)和DeepStack-V(注入ViT)[64][69] - Qwen3-VL采用DeepStack-L思想,将视觉信息深度注入到LLM的处理流程中,从视觉编码器的指定中间层(如第8、16、24层)提取特征,注入到LLM解码器的前几个浅层中[66][97] - 实验依据表明,LLM的浅层更适合处理和融合相对原始的视觉特征,注入起始层越靠前(如0~4层)、间隔约2或3层、总共注入约4个层时效果最优[71][76] - 实现上异常简洁高效,核心逻辑是在Transformer层循环中增加条件判断和一次原地加法,计算开销极小[72][74] - Qwen3-VL的适配更为高效,直接从处理标准输入的同一个Vision Tower的中间层提取特征,无需额外的高分辨率图像编码过程[75][99] LLaVA系列架构全景剖析 - LLaVA系列是其核心哲学“简洁即正确”的完美诠释,证明了极简架构在海量数据和聪明工程驱动下的强大力量[80] - LLaVA 1.0版本架构极其简洁:采用预训练的CLIP ViT-L作为视觉编码器,基于LLaMA/Vicuna作为语言模型,连接器仅为一个单层线性投影层[81][83][87] - LLaVA-1.5进行了务实迭代:将连接器升级为两层MLP,将视觉编码器输入分辨率提升至336x336,并引入更大规模的指令微调数据集[84][88] - LLaVA-OneVision达到演进高峰,通过海量多样化数据和优化的Higher AnyRes技术,将简洁理念从静态图像无缝扩展至动态视频,成为首批实现图像与视频统一处理的开源模型之一[92] Qwen3-VL架构全景剖析 - Qwen3-VL代表了“精巧设计,架构致胜”的路线,对模型核心架构进行深度改造以实现视觉与语言的持续深度交互[93] - 其架构实现了从“入口拼接”到“多层注入”的范式转变,视觉信息的处理和融合方式更为复杂精巧[94][96] - 代码演进清晰展示了其哲学转变:Qwen3-VL引入了`deepstack_merger_list`模块以实现DeepStack,并将语言模型升级为采用混合专家(MoE)架构的`Qwen3VLMoeTextModel`[98][101] - 除DeepStack外,Qwen3-VL还集成了多项前沿技术,如更先进的多维旋转位置编码MRoPE-Interleave和文本时间戳对齐机制,共同构成其技术护城河[101] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但殊途同归,共同推动了MLLM的性能边界,并指向实现视觉与文本更深层次、更无缝统一的方向[103][104] - 未来清晰的发展趋势包括:从“感知”迈向“推理与执行”,发展出能操作界面、调用工具的视觉智能体能力;拥抱动态与三维世界,原生支持长视频理解和3D空间定位;以及走向真正的多模态统一,在预训练早期进行多种模态数据的协同训练[107]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心· 2025-12-08 08:02
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型向能听、会看、可交互的智能体的深刻变革,其核心在于多模态大模型的发展[1] - 当前主流的多模态大模型普遍遵循“三位一体”的黄金架构,由视觉编码器(眼睛)、大语言模型(大脑)和连接器(桥梁)协同工作[3][5][6] 视觉编码器(Vision Transformer) - Vision Transformer是视觉编码的核心技术,它摒弃传统卷积神经网络,将图像视为序列化文本来处理[7] - ViT的工作流程包括:将图像分割成固定大小的图块序列、将图块展平并线性投影为视觉词元向量、为词元注入位置信息以理解空间布局、最后通过Transformer编码器进行深度特征融合[9][10][11][12][15] - 现代ViT架构采用旋转位置编码来编码二维空间信息,这比处理一维文本的RoPE更为复杂,赋予了模型强大的尺寸泛化能力[13][14] 大语言模型(LLM)的认知中枢 - 在多模态架构中,LLM作为“大脑”接收由视觉和文本特征拼接而成的统一序列,并基于此进行自回归生成以输出回答[17][20][21] - LLM的输入是一个融合了视觉与文本信息的长序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列,使模型能在统一上下文中进行图文理解[21] - 模型生成答案时采用不同的解码策略,包括速度快的贪婪解码、平衡质量与成本的束搜索以及增加多样性的采样策略[26][27][29] - LLM自身架构也在进化,新一代模型如Qwen3-VL采用混合专家架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 连接器(Connector)的设计哲学 - 连接器负责弥合视觉与语言模态的语义鸿沟,将视觉特征投影到LLM能理解的向量空间[32][33] - 连接器设计主要分为两大流派:以LLaVA为代表的“极简线性投影”派,依赖强大LLM和后端融合;以BLIP-2的Q-Former为代表的“主动信息提炼”派,在信息进入LLM前进行压缩和提炼[34][36][37][38] - Q-Former通过一组可学习的查询向量,利用交叉注意力机制从冗长的原始视觉特征中提炼出高度浓缩的摘要信息,显著减轻了LLM的计算负担[40][42][44][45][51] 处理高分辨率信息的技术路线:LLaVA的AnyRes - LLaVA系列采用“扩展输入边界”的哲学,通过AnyRes技术在不改动核心模型的前提下处理高分辨率图像[55] - LLaVA-1.5-HD的策略是“全局+局部”协同:将高清图切分为多个高清晰度图块以保留局部细节,同时将原图降采样以获得全局上下文,最后将两路特征拼接输入LLM[56][58][59] - LLaVA-OneVision进一步提出高级AnyRes,通过双线性插值在特征空间“缝合”图块,更好地保留文档等场景的空间布局信息[60][62][68] 处理高分辨率信息的技术路线:Qwen3-VL的DeepStack - Qwen3-VL代表“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的处理流程中,实现多层次融合[64][66] - DeepStack-L将来自视觉编码器不同中间层的特征,动态注入到LLM的浅层,使不同抽象层级的视觉信息与语言处理阶段相匹配[66][69][97] - 实验表明,从LLM的浅层(如第0-4层)开始注入、间隔2-3层、总计注入约4层时效果最优[71][76] - Qwen3-VL的实现高效且优雅,直接从处理标准输入的同一视觉编码器的中间层提取特征进行注入,无需额外计算高分辨率图像[72][74][75][99] LLaVA系列架构演进分析 - LLaVA系列的核心哲学是“大道至简”,其初代版本就以“CLIP ViT + 线性投影层 + LLaMA”的极简架构开创了范式[80][81][83] - 从1.0到1.5的迭代务实而高效,包括将连接器升级为两层MLP、提升输入分辨率至336x336以及使用更大规模指令微调数据[84][88] - 该系列通过持续的数据优化和输入端工程创新(如AnyRes)推动性能提升,并最终在LLaVA-OneVision上实现了图像与视频的统一处理[92] Qwen3-VL架构演进分析 - Qwen3-VL代表“精巧设计,架构致胜”的路线,对模型内部进行深度改造以实现视觉与语言的持续深度交互[93][94] - 其核心是从传统的“入口拼接”范式转变为“多层注入”范式,通过DeepStack技术让视觉信息在LLM处理过程中多次参与[96][97] - 代码层面的演进清晰可见,Qwen3-VL相比前代引入了deepstack_merger_list模块,并将语言模型升级为混合专家架构[98][101] - 该模型集成了多项前沿技术,包括MRoPE-Interleave位置编码和文本时间戳对齐机制,以更好地处理视频时空信息[101][102] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但都极大推动了多模态性能边界,并共同指向视觉与文本更深层统一的方向[103][104] - 未来趋势包括:从感知向推理与执行演进,发展出能操作界面的视觉智能体能力;从静态图像向长视频和三维空间理解拓展;以及最终实现从预训练早期就开始的多模态真正统一[104][107]