挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

文章核心观点 - 字节商业化技术团队研发了新一代视觉生成模型“生成精炼网络（GRN）”，该模型采用了一种全新的、不同于主流扩散模型和自回归模型的第三条技术路径，旨在解决现有模型在生成效率、错误累积和细节处理方面的核心痛点 [4][6][56] 模型架构与核心创新 - 提出全新生成范式：GRN让AI模仿人类绘画过程，能够“边画边改”，实现复杂内容多画、简单内容少画的自适应生成 [6][11][44] - 核心架构包含三部分： - 层次二叉树量化（HBQ）：采用近乎无损的离散编码，避免信息损失，并统一图像与视频的建模 [33][36] - 全局精炼网络（GRN）：通过引入“token擦除”和“token精调”机制，从随机状态开始迭代修改，从根本上解决了自回归模型的误差累积和传播问题 [40][41][44] - 复杂度感知采样：利用熵来衡量画面复杂度，智能分配推理步数，实现高效生成 [44][45] 技术优势与性能表现 - 解决现有模型痛点： - 扩散模型对所有样本使用相同迭代步数，缺乏自适应能力 [7][37] - 自回归模型存在信息损失、误差累积且无法修正早期错误的问题 [9][10][37] - 量化与重建性能领先：在ImageNet 256×256图像重建上，HBQ的rFID达到0.56，优于SD-VAE (0.87) 等其他编码器 [47]。视频重建中，8轮HBQ效果与连续VAE基线相当，且在更高压缩率下逼近连续编码质量 [48] - 生成质量超越主流模型： - 在类别生图（C2I）任务中，2B参数的GRN‑G的FID值为1.81，IS值为299.0，超越了DiT‑XL/2、SiT‑XL/2等主流模型 [50] - 130M参数的GRN‑B在C2I任务上FID为3.56，性能反超了参数量为其两倍的MaskGIT模型 (FID 6.18) [51] - 在文生视频（T2V）任务中，2B参数的GRN在VBench测试中超越了5B的CogVideoX、14B的Wan 2.1等模型，以及所有同规模的自回归和扩散模型 [54] 实际应用与生成效果 - 支持多模态生成：GRN能够处理类别生图、文生图、文生视频、图生视频等多种任务 [16] - 文生图体验：用户可在HuggingFace上体验GRN T2I模型，并调整提示词相关性等参数，生成效果具有年代感或鲜明的漫画风格 [18][21][23] - 文生视频能力：开源的2B参数模型可生成480p、2~10秒的高保真视频，在人物细节、动作流畅度和复杂镜头调度上表现优异，未出现画面畸形 [25][27][28][31] 行业意义与未来展望 - 开辟视觉生成新路径：GRN在扩散模型和自回归模型之间架起桥梁，证明了离散token建模能够做好图像和视频生成，为多模态统一提供了可能 [56][59] - 具备良好的扩展性：GRN类似语言模型的离散token建模方式具有良好的scaling特性，团队计划在未来推出参数量更大的模型 [53] - 思路具有启发性：GRN的“全局精调”思路可被借鉴至大语言模型（dLLM）等领域，为解决其一次性生成、早期错误无法修正的问题提供了新的破局思路 [57][58]