视觉Token与大语言模型词表对齐

搜索文档
视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成
量子位· 2025-04-03 10:12
1、 传统视觉tokenizer生成的离散表征与LLM词表存在显著的分布偏差。 V²Flow团队 发自 凹非寺 量子位 | 公众号 QbitAI 视觉T oken可以与LLMs 词表无缝对齐了! V²Flow,基于LLMs可以实现高保真自回归图像生成。 实现自回归图像生成的关键是设计向量化(Vector-Quantization)的视觉Tokenizer,将视觉内容离散化成类 似于大语言模型词表的离散Token。 现有方法虽取得进展,却始终面临两大桎梏: 2、 维度诅咒:图像的二维结构迫使大语言模型以逐行方式预测视觉token,与一维文本的连贯语义预测存 在本质冲突。 结构性与特征分布性的双重割裂,暴露了当前自回归视觉生成的重大缺陷:缺乏能够既保证高保真图像重 建,又能与预训练LLMs词汇表在结构上和特征分布上统一的视觉tokenizer。解决这一问题对于实现有效的 多模态自回归建模和增强的指令遵循能力至关重要。 因此,一个核心问题是: 能否设计一种视觉tokenizer,使生成的离散视觉token在保证高质量视觉重建的同时,与预训练LLMs 词汇表实现无缝融合? 统一视觉Token与大语言模型词表 最新开源 ...