多模态架构

搜索文档
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
机器之心· 2025-05-17 14:00
自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构,导致因果链破碎,无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选(14/13008,0.1%)[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷:预测稳定性差(MSE训练误差高于XE分类器)、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度,实现因子更好解耦,且严格满足贝尔曼方程,使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA:1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器:图像分支继承SD3 VAE隐空间,文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制,解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略,昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表,新增32,768个图像token,复用LLM训练范式[24] - 设计两类奖励函数:基于程序的目标检测评估(提升图文一致性)和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分,超越GPT-4o;DPG Bench达85.57分,多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合,单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76,显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力,非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]