5秒出4张2K大图!阿里提出2步生成方案,拉爆AI生图进度条
搜狐财经·2026-01-30 20:44

核心观点 - 阿里巴巴智能引擎团队通过创新的蒸馏与对抗学习技术组合,将Qwen-Image模型的图像生成步数从80-100步大幅压缩至2步,实现了40倍的速度提升,仅需5秒即可生成4张2K高清图片,显著提升了AI图像生成的效率与实用性[1][2] 技术突破与方案 - 技术路径演进:团队克服了传统轨迹蒸馏在低步数下生成图像模糊、细节扭曲的缺陷,转而采用基于概率空间的蒸馏方案(如DMD2算法),通过Reverse-KL损失函数让学生模型自我生成并接受教师模型指导,显著提升了生成图像的细节与合理性[6][7][10][11] - 解决分布退化:针对极低步数(2步)设定下Reverse-KL可能导致的多样性降低、饱和度增加等问题,团队引入PCM蒸馏进行模型热启动,有效缓解了分布退化,改善了形体扭曲问题[12][13][14][15] - 引入对抗学习增强细节:为进一步提升2步模型在细节纹理上的表现,团队引入了对抗学习(GAN),通过混合真实数据与教师生成图、引入DINO特征提取器、调整损失权重等改进,显著增强了生成画面的真实感与细节质感[22][24] 产品化与开源 - 模型发布与集成:该2步蒸馏模型(Qwen-Image-2512-Turbo-LoRA-2-Steps)的检查点已发布在HuggingFace和ModelScope平台,供开发者下载体验,并已集成至呜哩AI平台支持调用[3][4] - 工程能力与开源文化:团队作为阿里AI工程系统的建设者,聚焦大模型全链路工程能力,致力于性能优化与基础设施构建,并坚持开放共享,已贡献包括Havenask、RTP-LLM在内的多项优秀开源项目[26] - 持续迭代计划:团队承认在部分复杂场景下模型仍有改进空间,未来将持续迭代扩散加速技术并开源模型权重,致力于将先进的工程能力转化为触手可及的创作工具[26][27]