Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

多模态模型技术路线创新 - 传统CLIP-style encoder方法将视觉表征过早拉近到文本空间，导致原生视觉结构被不可逆压缩/丢失，语言模型需二次解码跨模态embedding，造成对齐脆弱和推理链条变长[2] - 北大、UC San Diego和BeingBeyond联合提出Being-VL方法，将视觉与文本对齐步骤后置，先在纯自监督、无语言条件设定下将图像离散化并分词，再与文本在同一词表、同一序列中由同一Transformer统一建模，从源头缩短跨模态链路并保留视觉结构先验[2] Being-VL实现方法 - 实现分为三步：首先用VQ（如VQ-GAN）将图像量化为离散VQ tokens，随后训练视觉版BPE，不仅看共现频次，还显式度量空间一致性，优先合并既常见又在不同图像中相对位置稳定的token对，得到更具语义与结构的BPE tokens，最后将视觉tokens与文本tokens串成同一序列，进入同一个自回归LLM统一建模，不再依赖额外projector或CLIP对齐[3] - BPE词表学习仅依赖图像统计，不看文本，真正把语言对齐留到后续阶段[3] 与传统方法的本质差异 - 传统做法让LLM去再解释外部视觉encoder的连续embedding，这会放大模态鸿沟并诱发幻觉[6] - Being-VL把视觉提前离散化为可组合的tokens，并在序列里与文本统一建模，减少表征形态错位，缩短跨模态因果链条，从而在保持感知细节与高层语义的同时降低想象成分[6] 视觉BPE tokenizer设计 - 针对视觉场景设计BPE tokenizer，提出Priority-Guided Encoding：基于score P(a,b)=F(a,b)+α・S(a,b)进行BPE词表构建，其中F为邻接频次，S衡量在不同图像中的相对位置一致性，相似度用高斯核对齐，使视觉词表既覆盖高频模式又保留空间结构[7][8] - 此过程完全不依赖文本[8] 三阶段训练策略 - 采用三阶段训练并显式控制解冻顺序：Stage-1只训练新扩展的视觉token embeddings（包括VQ与BPE两部分），其余参数全部冻结，完成基础对齐而不扰动原有语言能力；Stage-2解冻LLM前若干层（默认约25%），让跨模态交互首先在底层表征中发生；Stage-3全量解冻，在更复杂的reasoning/instruction数据上收尾，强化高级能力[9][10][12] - 与解冻节奏配套，数据采用curriculum：从基础caption与属性识别，逐步过渡到视觉问答与多轮指令，显式对齐BPE的由局部到整体的层级特性，消融表明渐进解冻+curriculum明显优于单阶段训练[10] 实验效果与性能分析 - 实验表明，把图像先离散化并做视觉BPE，再与文本在同一序列里统一建模，既稳又有效，相较传统先拉到文本空间的做法更少丢失原生视觉信息，在细节敏感的问答与抗幻觉上更可靠[14] - 移除BPE后性能与稳健性整体下降，说明增益主要来自于把常见且空间关系稳定的视觉模式合成更有语义的tokens，让LLM在更合适的粒度上推理[14] 可视化与词表规模影响 - Visual BPE Token激活机制可视化显示，引入不同词表大小的visual BPE后，文本与视觉token的权重分布趋于均衡与同构，说明BPE在更细粒度上对齐了子词/子片段层面的统计与表征空间，降低模态间的分布漂移与共现偏差[16] - BPE词表规模在训练资源受限情形下，与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡，处于甜点区，词表继续增大（≥16K）时会出现大量低利用率、呈稀疏分布的token，导致单位算力收益下降，但预示在数据规模扩张时有更强上限潜力[19] 技术发展历程 - Being-VL-0给出视觉离散化+BPE的可行性与动机，从理论分析与toy实验出发，得出结论BPE-style合并能把必要的结构先验灌注进token，使Transformer更易学习，并初步探索两阶段训练（PT→SFT）、文本embedding冻结策略与数据scaling带来的稳健增益[21] - Being-VL-0.5将这一路线进一步优化为统一建模框架，包括频次与空间一致性联合的Priority-Guided Encoding、VQ/BPE/LLM三阶段渐进解冻及配套curriculum数据策略[24]