视觉生成的另一条路：Infinity 自回归架构的原理与实践

视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路，从低分辨率开始逐级放大补全细节，更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差，残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token，将迭代次数压缩至传统逐点方式的十分之一，显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术，对特征激活按正负号压成±1形成1-bit表示，词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类，参数量从100B降至可接受范围，并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术，在训练和推理阶段量化回传预测结果，使网络学会纠正前一步错误，显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT，FID指标达到1.73（VAR-d30-re模型）[18][20] - 模型展现出清晰稳健的缩放曲线，性能随参数增加按幂律提升，2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优，当参数规模扩大时2^32词表性能反超2^16词表，验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪，训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高，所有尺度可一次输入网络，不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标，支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成，在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节，表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势，为多模态AI应用提供新路径 [46]