Adversarial Learning
搜索文档
5秒出4张2K大图!阿里提出2步生成方案,拉爆AI生图进度条
量子位· 2026-01-30 19:02
核心观点 - 阿里巴巴智能引擎团队通过一系列技术创新,将文生图扩散模型的推理速度大幅提升,实现了仅需2步前向计算即可生成高质量图像,速度较传统方法提升40倍,达到5秒生成4张2K高清大图的水平,使AI图像生成进入“眨眼之间”的时代 [1][2][3] 技术突破与性能表现 - **速度与效率**:团队将Qwen最新开源模型的生成步数从80-100步骤降至2步,速度提升40倍,实现5秒内生成4张2K高清大图 [1][2] - **模型发布**:相关模型检查点已发布在HuggingFace和ModelScope平台,供开发者下载体验 [5] 技术方案演进与创新 - **传统方案局限**:早期轨迹蒸馏方法在低迭代步数下存在生成图像模糊、细节扭曲的问题,因其损失函数对所有图像块一视同仁,导致细节学习不充分 [6][7] - **概率空间蒸馏**:采用基于概率空间的蒸馏方案(如DMD2算法),将约束从样本空间转换到概率空间,使用Reverse-KL损失函数,显著提升了生成图像的细节性和合理性,解决了细节丢失问题 [8][10][11][12] - **热启动缓解退化**:针对Reverse-KL损失可能导致的模式崩溃和分布锐化问题,团队使用PCM蒸馏进行模型热启动,有效改善了形体扭曲等问题 [14][15][16][17] - **引入对抗学习**:为了进一步提升细节表现,团队引入了对抗学习,通过混合真实数据与教师生成图、引入DINO特征提取器、调整损失权重等改进,显著提升了生成画面的质感和细节真实性 [20][23][25][26][28] 行业意义与团队背景 - **行业方向**:极少步数的扩散生成一直是AI生成领域的重要方向,但单一算法方案往往存在局限 [29] - **工程实践**:团队从实际落地效果出发,通过分析并针对性解决蒸馏带来的扭曲、纹理缺失等问题,最终使2步生成模型达到工业场景可落地的水准 [30] - **团队积淀**:团队作为阿里巴巴AI工程系统的建设者,聚焦于大模型全链路工程能力建设,包括训推性能优化、引擎平台、Agent应用平台等关键组件,并已贡献多项优秀开源项目 [34] - **未来计划**:团队将持续迭代扩散加速技术并开源模型权重,相关技术将同步在呜哩AI平台上线,旨在为更广泛的创作者提供触手可及的创作工具 [33][35][36]