生成精炼网络GRN
搜索文档
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
量子位· 2026-05-13 19:30
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI ber!这个五一假期,我也是真够忙的: 自拍、电影、追剧、街头采访、听音乐会,还抽空回老家结了次婚…… (咳咳) 不卖关子了,其实以上这些,通通都是AI生成。 但u1s1,就这逼真的眼神和动作,也太对味了! 它们都出自 字节商业化技术团队 研发的新一代视觉生成模型,更妙的是—— 它的底层架构,不是主流的扩散模型,也并非近来大火的自回归模型,而是 全新的第三条路 。 这篇研究论文,提出了另一种AI视觉生成构想: 让AI像人类一样画画,不仅可以边画边改,还能复杂多画、简单少画。也就是 生成精炼网络GRN (Generative Refinement Networks) 简单来说,如果把AI视觉生成比作在白纸上作画,那么现有的扩散和自回归模型各有各的优缺点。 先说扩散模型,作为目前最常用的视觉生成架构,还是有两把刷子的,其所生成的视频几乎能够以假乱真。 但实则它的绘画过程还像个笨拙的学生,无论是画简单的一颗苹果,还是复杂的巴洛克壁画,都必须老老实实一笔一笔画,所以即使是复杂度 天差地别的画作,也要花费相同的时间步数。 。 自回归模型这边,虽然天生具备画面复杂度感 ...