Workflow
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
具身智能之心·2025-10-11 08:02

文章核心观点 - 提出一种名为Being-VL的新方法,旨在解决多模态模型中视觉表征过早对齐文本空间导致细节丢失和幻觉的问题 [1] - 该方法的核心是将图像先进行离散化并“分词”,再与文本在同一词表和序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验 [1] - 通过视觉版BPE(Byte Pair Encoding)技术,在合并token时不仅考虑共现频次,还显式度量空间一致性,以优先合并既常见又在不同图像中相对位置稳定的token对 [2][7] - 采用三阶段渐进解冻训练策略,从基础对齐逐步过渡到全量微调,能在不扰动语言能力的前提下稳步提升跨模态理解 [9][12][15] 技术实现路径 - 实现分为三步:首先用VQ(如VQ-GAN)把图像量化为离散VQ tokens;随后训练一个视觉版BPE,得到更具语义与结构的BPE tokens;最后把视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模 [2] - 视觉BPE tokenizer采用Priority-Guided Encoding,基于score P(a,b)=F(a,b)+α・S(a,b)进行词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性 [7] - 三阶段训练策略具体为:Stage-1只训练新扩展的视觉token embeddings;Stage-2解冻LLM前约25%的层;Stage-3全量解冻,在更复杂的推理/指令数据上收尾 [15] 实验效果与分析 - 相较于传统“先拉到文本空间”的做法,统一的离散表示更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠 [12] - 移除BPE后,性能与稳健性会整体下降,说明增益主要来自于把“常见且空间关系稳定”的视觉模式合成更有语义的tokens [12] - 在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于“甜点区”;词表增大至≥16K时会出现大量低利用率token [19] - 嵌入权重可视化显示,引入visual BPE后,文本与视觉token的权重分布趋于均衡与同构,降低了模态间的分布漂移与共现偏差 [16] 项目发展历程 - Being-VL-0 (ICLR 2025) 给出了视觉离散化+BPE的可行性与动机,并初步探索了两阶段训练策略 [23] - Being-VL-0.5 (ICCV 2025 highlight) 将这一路线进一步优化为统一建模框架,包含Priority-Guided Encoding、三阶段渐进解冻及配套的课程数据策略 [23]