多模态架构 - 财报，业绩电话会，研报，新闻

多模态架构

搜索文档

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

机器之心· 2025-05-17 14:00

自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构，导致因果链破碎，无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术，通过反向扩散过程将自回归先验融入视觉token，使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选（14/13008，0.1%）[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷：预测稳定性差（MSE训练误差高于XE分类器）、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度，实现因子更好解耦，且严格满足贝尔曼方程，使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA：1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器：图像分支继承SD3 VAE隐空间，文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制，解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略，昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表，新增32,768个图像token，复用LLM训练范式[24] - 设计两类奖励函数：基于程序的目标检测评估（提升图文一致性）和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分，超越GPT-4o；DPG Bench达85.57分，多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合，单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76，显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力，非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]