视觉编码器 - 财报，业绩电话会，研报，新闻

视觉编码器

搜索文档

量子位· 2026-03-19 09:02

文章核心观点 - 腾讯开源的多模态大模型Penguin-VL，其核心创新在于打破了主流“视觉编码器+语言模型”的拼接范式，提出了一种从纯文本大语言模型初始化视觉编码器的新路径[1][2] - 该方法旨在解决传统基于对比学习的视觉编码器在处理文档、图表、长视频等需要保留局部结构、空间关系和时序细节的复杂任务时的潜在不足[8][9][10] - 在2B和8B的紧凑参数规模下，该模型在多项复杂视觉理解任务上展现出强大竞争力，证明了此技术路线的有效性，并可能引领多模态模型向更原生、统一的方向发展[3][36][45][49] 技术路径创新 - **主流范式批判**：当前多数视觉语言模型采用固定模式，即使用CLIP、SigLIP等通过对比学习预训练的视觉模型作为编码器，再接上大语言模型进行训练[5][6] - **新路径提出**：Penguin-VL团队质疑上述范式是否为复杂视觉理解的最合适起点，并创新性地提出直接从纯文本大语言模型初始化视觉编码器[8][15] - **核心优势**：从大语言模型出发的视觉编码器，与下游语言模型的表示空间更近，复用了其成熟的序列建模、因果逻辑等能力，为视觉理解提供了更强起点[18][19] 模型架构与训练 - **关键改造**：对初始化的纯文本大语言模型进行两处关键改造，将因果注意力改为双向注意力，并引入2D-RoPE以更好地处理图像和视频的二维位置信息[21][22] - **三阶训练**： - Stage 1：训练Penguin-Encoder本身，采用从低分辨率预训练到高分辨率微调的路线，并引入重建损失和关系损失以保留结构化视觉信息[28][29] - Stage 2：进行视觉语言模型预训练，让编码器、投影层和语言模型共同学习多模态知识[30] - Stage 3：进行监督微调，将模型能力对齐到具体用户任务[31] - **视频处理**：引入时序冗余感知令牌压缩策略，优先将计算预算分配给关键帧，以高效保留重要的时序信息[32][33][34] 性能表现 - **整体竞争力**：在2B和8B的紧凑参数规模下，Penguin-VL在文档理解、图表理解、视觉知识和长视频理解等复杂任务上均表现出极强竞争力[3][36] - **2B模型表现**：在InfoVQA、ChartQA、DocVQA、V-star、LongVideoBench、NextQA、Perception Test等任务上表现亮眼[37] - **8B模型表现**：在更完整的配置下延续优势，在InfoVQA、ChartQA、DocVQA、AI2D、RealWorldQA、V-star、LongVideoBench、NextQA、CharadesSTA、Perception Test等任务上保持强劲表现[39][40][41] - **基准测试数据**：以8B模型为例，在InfoVQA上得分86.8，ChartQA上得分90.5，DocVQA上得分96.2，LongVideoBench上得分67.0，均优于或接近部分同规模竞品[43] - **编码器有效性验证**：消融实验表明，使用大语言模型初始化的Penguin-Encoder平均分达34.6，优于随机初始化的31.3分；在模型集成比较中，Penguin-Encoder以约2.4亿Stage 1训练样本，取得了49.3的平均分，超过了依赖更大规模对比学习预训练的视觉编码方案[44] 行业意义与趋势 - **范式探索**：该研究证明，未来的视觉编码器不一定必须源自传统视觉模型，也可以从更通用的语言模型出发，为多模态模型设计提供了新思路[45][47] - **行业趋势**：这与DeepSeek-OCR2等工作呈现的趋势相通，表明行业正逐步跳出传统的多模态拼接路线，开始探索更原生、统一的建模方式[48][49] - **开源与可及性**：腾讯已开放该项目的相关代码、模型权重，并提供交互式体验，降低了行业研究和应用的门槛[50][51]

腾讯控股(HK:00700)

多模态模型

视觉编码器

Artificial Intelligence

Artificial Intelligence

Penguin-VL

Penguin-Encoder