视觉编码器
搜索文档
腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!
量子位· 2026-03-19 09:02
文章核心观点 - 腾讯开源的多模态大模型Penguin-VL,其核心创新在于打破了主流“视觉编码器+语言模型”的拼接范式,提出了一种从纯文本大语言模型初始化视觉编码器的新路径[1][2] - 该方法旨在解决传统基于对比学习的视觉编码器在处理文档、图表、长视频等需要保留局部结构、空间关系和时序细节的复杂任务时的潜在不足[8][9][10] - 在2B和8B的紧凑参数规模下,该模型在多项复杂视觉理解任务上展现出强大竞争力,证明了此技术路线的有效性,并可能引领多模态模型向更原生、统一的方向发展[3][36][45][49] 技术路径创新 - **主流范式批判**:当前多数视觉语言模型采用固定模式,即使用CLIP、SigLIP等通过对比学习预训练的视觉模型作为编码器,再接上大语言模型进行训练[5][6] - **新路径提出**:Penguin-VL团队质疑上述范式是否为复杂视觉理解的最合适起点,并创新性地提出直接从纯文本大语言模型初始化视觉编码器[8][15] - **核心优势**:从大语言模型出发的视觉编码器,与下游语言模型的表示空间更近,复用了其成熟的序列建模、因果逻辑等能力,为视觉理解提供了更强起点[18][19] 模型架构与训练 - **关键改造**:对初始化的纯文本大语言模型进行两处关键改造,将因果注意力改为双向注意力,并引入2D-RoPE以更好地处理图像和视频的二维位置信息[21][22] - **三阶训练**: - Stage 1:训练Penguin-Encoder本身,采用从低分辨率预训练到高分辨率微调的路线,并引入重建损失和关系损失以保留结构化视觉信息[28][29] - Stage 2:进行视觉语言模型预训练,让编码器、投影层和语言模型共同学习多模态知识[30] - Stage 3:进行监督微调,将模型能力对齐到具体用户任务[31] - **视频处理**:引入时序冗余感知令牌压缩策略,优先将计算预算分配给关键帧,以高效保留重要的时序信息[32][33][34] 性能表现 - **整体竞争力**:在2B和8B的紧凑参数规模下,Penguin-VL在文档理解、图表理解、视觉知识和长视频理解等复杂任务上均表现出极强竞争力[3][36] - **2B模型表现**:在InfoVQA、ChartQA、DocVQA、V-star、LongVideoBench、NextQA、Perception Test等任务上表现亮眼[37] - **8B模型表现**:在更完整的配置下延续优势,在InfoVQA、ChartQA、DocVQA、AI2D、RealWorldQA、V-star、LongVideoBench、NextQA、CharadesSTA、Perception Test等任务上保持强劲表现[39][40][41] - **基准测试数据**:以8B模型为例,在InfoVQA上得分86.8,ChartQA上得分90.5,DocVQA上得分96.2,LongVideoBench上得分67.0,均优于或接近部分同规模竞品[43] - **编码器有效性验证**:消融实验表明,使用大语言模型初始化的Penguin-Encoder平均分达34.6,优于随机初始化的31.3分;在模型集成比较中,Penguin-Encoder以约2.4亿Stage 1训练样本,取得了49.3的平均分,超过了依赖更大规模对比学习预训练的视觉编码方案[44] 行业意义与趋势 - **范式探索**:该研究证明,未来的视觉编码器不一定必须源自传统视觉模型,也可以从更通用的语言模型出发,为多模态模型设计提供了新思路[45][47] - **行业趋势**:这与DeepSeek-OCR2等工作呈现的趋势相通,表明行业正逐步跳出传统的多模态拼接路线,开始探索更原生、统一的建模方式[48][49] - **开源与可及性**:腾讯已开放该项目的相关代码、模型权重,并提供交互式体验,降低了行业研究和应用的门槛[50][51]