文章核心观点 - 中国联通数据科学与人工智能研究院联合高校提出的新框架“轨迹链”(CoTj),通过赋予扩散模型动态规划能力,实现了对文生图/视频模型计算资源的智能分配,在极低计算步数下显著提升生成质量,证明了“路径规划”比“求解器优化”更为关键 [4][23][35] 技术原理与创新 - CoTj框架的核心创新是让扩散模型拥有了类似“系统2”的规划能力,能够根据提示词的复杂程度动态分配计算资源,解决了传统方法固定步数采样导致的“简单题算力过剩,复杂题细节崩坏”问题 [1][2][4] - 团队通过提取名为“Diffusion DNA”的低维结构化特征,量化每个去噪阶段的难度,成功将高维复杂的采样过程转化为有向无环图上的最短路径优化问题,克服了“状态维度灾难” [8][9][11] - 该框架采用“预测-规划-执行”推理范式:首先通过极轻量级预测器快速预判难度,然后基于图论进行全局轨迹规划,最后动态执行算力分配 [14][15] 性能表现与实验结果 - 在极端加速场景下,CoTj展现出颠覆性优势:在仅5步的极端压缩下,CoTj规划出的轨迹配合最朴素的1阶Euler求解器,其生成质量(GenEval 0.626)超越了传统固定调度配合高阶UCGM求解器的方案(GenEval 0.528) [4][23][24] - 当CoTj规划配合高阶UCGM求解器时,在5步下能达到GenEval 0.775,在10步下能达到0.850,证明了正确规划与高阶求解器结合能达到最佳效果 [24] - 在轨迹可达性方面,10步的CoTj轨迹其重构质量(MSE减少超60%,PSNR提升超6dB)能媲美或超越传统固定分配的数十步结果 [25][28] - 在缓存自适应方面,CoTj能根据预测的DNA引导Cache更新节点,精准锁定高信息密度区域进行计算复用,在25步预算下,其性能(PSNR 35.20)反超了专门针对缓存优化的LeMiCa算法(PSNR 32.77) [27][28] 跨模态应用与扩展发现 - 在视频生成任务中,CoTj应用于Wan2.2模型测试,发现了“生成层级”逻辑,即在极限压缩下采取“保真度优先”策略,先稳定空间结构再释放动态效果,从而在40步充足预算下实现运动平滑度和动态逼真度的全面反超 [29][31] - Diffusion DNA特征可作为模型诊断工具,通过分析分步重建增益曲线,能揭示模型的内在收敛性,例如发现某些蒸馏模型在迭代后期仍保持高更新能量,存在“过度烹饪”和结构不收敛的隐患 [32][34] 未来展望与行业影响 - CoTj框架被视为将生成式AI从被动执行引向“资源感知规划”的里程碑式探索,标志着扩散模型“系统2”深思熟虑时代的开启 [35][37] - 团队指出了未来的研究方向,包括扩展到更复杂的视频动态建模、引入在线反馈机制进行轨迹修正,以及探索跨模态下无监督的Diffusion DNA发现 [36] - 该研究的论文已在arXiv发布,推理代码也已开源 [5][37]
扩散模型终于学会「看题下菜碟」!根据提示词难度动态分配算力,简单题省时复杂题保画质