Workflow
VAE
icon
搜索文档
VAE再被补刀,清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
36氪· 2025-10-28 15:32
技术范式变革 - 图像生成领域出现无VAE潜在扩散模型新范式,清华与快手可灵团队推出SVG模型[1] - VAE因语义纠缠缺陷被接连抛弃,调整潜空间单一数值会导致图像多特征 unintended 联动变化[3] - 传统VAE+扩散模型范式将高分辨率图像压缩为低维潜空间特征,导致不同语义图像特征混乱交织,训练和生成效率低下[5] SVG模型核心技术优势 - 采用语义与细节双分支加分布对齐架构,以DINOv3预训练模型作为语义提取器解决语义纠缠问题[6][8] - 设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节,并通过分布对齐机制实现完美融合[8] - 分布对齐机制至关重要,移除后生成图像FID值从6.12升至9.03,生成质量大幅下滑[9] 训练与生成效率突破 - 相比传统VAE方案,SVG实现训练效率62倍提升和生成速度35倍提升[1] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58)[11] - 在5步采样推理效率消融实验中,SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46[12] 多任务通用性表现 - SVG特征空间可直接用于图像分类、语义分割、深度估计等任务,无需微调编码器[13] - 在ImageNet-1K分类任务中Top-1精度达81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门分割模型水平[13][14] - 模型在1400个epoch延长训练后,FID可低至1.92,接近当前顶级生成模型水平[11] 行业影响与团队背景 - 技术突破显示预训练视觉模型特征空间已具备替代VAE能力,代表行业技术发展方向[17] - 项目由加州大学伯克利分校博士后郑文钊负责,核心成员来自清华大学自动化系和快手可灵团队[15][17]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
技术趋势:无VAE潜在扩散模型的兴起 - 图像生成领域出现技术范式转变,VAE(变分自编码器)正被无VAE潜在扩散模型替代 [1] - 清华与快手可灵团队联合提出名为SVG的无VAE潜在扩散模型,标志着技术路线的演进 [1] SVG模型的核心技术创新 - 采用“语义+细节双分支+分布对齐”的架构,从根本上解决VAE的语义纠缠缺陷 [4] - 语义纠缠指传统VAE将不同语义特征置于同一潜空间,导致调整单一数值(如猫的颜色)会引发连锁反应(如体型、表情改变) [4] - 以DINOv3预训练模型作为语义提取器,确保不同类别(如猫、狗)的特征边界清晰可辨 [14] - 专门设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节信息 [14] - 通过分布对齐机制调整细节特征,使其数值分布与DINOv3语义特征匹配,避免细节扰乱语义结构 [15][16] - 消融实验证明分布对齐机制至关重要,移除后生成图像的FID值从6.12升至9.03,生成质量大幅下滑 [16] SVG模型的性能优势 - 在训练效率上实现62倍提升,在生成速度上实现35倍提升 [3] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58) [18] - 当训练延长至1400个epoch,SVG-XL的FID可低至1.92,接近当前顶级生成模型水平 [18][19] - 在推理效率上,5步采样时SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46,表明其在较少采样步数下即可达到较好生成质量 [19][20] - 10步采样时,SVG-XL的gFID为9.39(无CFG)和6.49(有CFG),优于对比模型 [20] SVG模型的多任务通用性 - 模型构建的特征空间具备多任务通用能力,不仅用于图像生成,还可直接用于图像分类、语义分割、深度估计等视觉任务,且无需微调编码器 [22] - 在ImageNet-1K图像分类任务中Top-1精度达到81.8%,与原始DINOv3(81.71%)几乎一致 [22][23] - 在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型 [22][23] 技术路线对比:SVG与RAE - SVG技术路线旨在兼顾生成与多任务通用,而谢赛宁团队的RAE技术路线则极致聚焦于图像生成性能 [4][11] - RAE直接复用DINOv2、MAE等预训练编码器,不修改编码器结构,仅优化解码器来还原图像细节,并针对性改造扩散模型架构 [9][10] - SVG则主动构建语义与细节融合的特征空间,而非直接复用预训练特征 [12]
13.05亿元技术改造再贷款项目落地重庆长寿
搜狐财经· 2025-06-19 13:16
政策支持 - 中国人民银行增加科技创新和技术改造再贷款额度3000亿元,总额度达8000亿元,以支持"两新"政策和金融"五篇大文章"[1] - 中国人民银行长寿分行瞄准重点企业重点项目,推动重庆市单一主体授信金额最大的再贷款备选清单内项目贷款落地[1] 企业案例 - 川维化工是重庆市备选清单内单一主体技术改造需求金额第三大的企业,是国内最大的天然气精细化工和新材料企业,产品广泛应用于医药、造纸、纺织等领域[2] - 中国人民银行长寿分行联动金融机构上门服务,解读技术改造再贷款和财政贴息政策,并落实专人对接,破解信息不对称[2] 融资成果 - 中国工商银行重庆市分行、交通银行重庆市分行、招商银行重庆分行为川维化工4个项目提供授信合计13.05亿元,签订合同11.87亿元,并实现首笔贷款投放[5] - 通过设备更新和技术改造再贷款、中央财政贴息、技改专项贷财政贴息三重政策优惠,预计为企业节约融资成本约2000万元[5] 项目影响 - 融资支持将助力川维化工向高端防水涂料等高附加值产品方向升级转型,提升其在新材料领域的市场占有率[5] - 中国人民银行长寿分行将持续指导金融机构优化金融服务,落实科技创新和技术改造再贷款政策,支持企业技改升级和高质量发展[5]