Workflow
DyDiT架构
icon
搜索文档
质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025
量子位· 2025-04-24 18:29
DyDiT团队 投稿 量子位 | 公众号 QbitAI 算力砍半,视觉生成任务依然SOTA! 达摩院在ICLR 2025上抛出的DyDiT架构:通过时间步长与空间区域的智能资源分配,将 DiT模型的推理算力削减51%,生成速度提升1.73倍,而FID指标几乎无损! 更惊人的是,这一突破仅需3%的微调成本。 该方法通过引入动态化调整机制,可精准削减视觉生成任务中50%的推理算力,有效缓解传 统扩散模型的计算冗余问题,相关工作已开源。 使用者更可根据自身的资源限制或者部署要求,灵活调整目标的计算量,DyDiT将自动适配 模型参数,实现效果与效率的最佳平衡。 实验结果表明,DyDiT在多个数据集和生成模型下均表现出高稳定性。 算力砍半效果依然SOTA DiT架构作为当前主流的生成模型框架,有效实现了图像与视频的可控生成,推动生成式AI 走向应用爆发。 然而,DiT架构的多步生成策略存在推理效率低、算力冗余等问题,在执行视觉生成任务容 易造成极高的算力消耗,限制其往更广泛的场景落地。 业内提出高效采样、特征缓存、模型压缩剪枝等方法尝试解决这一问题,但这些方法均针对 静态不变模型,又衍生出潜在的冗余浪费问题。 达摩院( ...