文章核心观点 - 字节商业化技术团队研发了新一代视觉生成模型“生成精炼网络(GRN)”,该模型采用了一种全新的、不同于主流扩散模型和自回归模型的第三条技术路径,旨在解决现有模型在生成效率、错误累积和细节处理方面的核心痛点 [4][6][56] 模型架构与核心创新 - 提出全新生成范式:GRN让AI模仿人类绘画过程,能够“边画边改”,实现复杂内容多画、简单内容少画的自适应生成 [6][11][44] - 核心架构包含三部分: - 层次二叉树量化(HBQ):采用近乎无损的离散编码,避免信息损失,并统一图像与视频的建模 [33][36] - 全局精炼网络(GRN):通过引入“token擦除”和“token精调”机制,从随机状态开始迭代修改,从根本上解决了自回归模型的误差累积和传播问题 [40][41][44] - 复杂度感知采样:利用熵来衡量画面复杂度,智能分配推理步数,实现高效生成 [44][45] 技术优势与性能表现 - 解决现有模型痛点: - 扩散模型对所有样本使用相同迭代步数,缺乏自适应能力 [7][37] - 自回归模型存在信息损失、误差累积且无法修正早期错误的问题 [9][10][37] - 量化与重建性能领先:在ImageNet 256×256图像重建上,HBQ的rFID达到0.56,优于SD-VAE (0.87) 等其他编码器 [47]。视频重建中,8轮HBQ效果与连续VAE基线相当,且在更高压缩率下逼近连续编码质量 [48] - 生成质量超越主流模型: - 在类别生图(C2I)任务中,2B参数的GRN‑G的FID值为1.81,IS值为299.0,超越了DiT‑XL/2、SiT‑XL/2等主流模型 [50] - 130M参数的GRN‑B在C2I任务上FID为3.56,性能反超了参数量为其两倍的MaskGIT模型 (FID 6.18) [51] - 在文生视频(T2V)任务中,2B参数的GRN在VBench测试中超越了5B的CogVideoX、14B的Wan 2.1等模型,以及所有同规模的自回归和扩散模型 [54] 实际应用与生成效果 - 支持多模态生成:GRN能够处理类别生图、文生图、文生视频、图生视频等多种任务 [16] - 文生图体验:用户可在HuggingFace上体验GRN T2I模型,并调整提示词相关性等参数,生成效果具有年代感或鲜明的漫画风格 [18][21][23] - 文生视频能力:开源的2B参数模型可生成480p、2~10秒的高保真视频,在人物细节、动作流畅度和复杂镜头调度上表现优异,未出现画面畸形 [25][27][28][31] 行业意义与未来展望 - 开辟视觉生成新路径:GRN在扩散模型和自回归模型之间架起桥梁,证明了离散token建模能够做好图像和视频生成,为多模态统一提供了可能 [56][59] - 具备良好的扩展性:GRN类似语言模型的离散token建模方式具有良好的scaling特性,团队计划在未来推出参数量更大的模型 [53] - 思路具有启发性:GRN的“全局精调”思路可被借鉴至大语言模型(dLLM)等领域,为解决其一次性生成、早期错误无法修正的问题提供了新的破局思路 [57][58]
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
量子位·2026-05-13 19:30