变分自编码器(VAE)
搜索文档
无预训练模型拿下ARC-AGI榜三!Mamba作者用压缩原理挑战Scaling Law
量子位· 2025-12-15 18:33
文章核心观点 - 研究提出了一种名为“最小描述长度”的新智能配方,挑战了智能必须源于大规模预训练和数据的假设[1][48] - 该方法通过一个仅76K参数、未经预训练的模型,在推理阶段最小化目标谜题的描述长度,成功在ARC-AGI-1基准上解决了20%的问题[3][7] - 这项研究被视为一条通往通用人工智能的可能的、互补的替代路径[48] 研究方法与原理 - 核心思想源自最小描述长度理论,旨在为特定谜题寻找能用最少比特信息表述的最短计算机程序,该程序即揭示了谜题的本质规律和解法[7][8][10] - 该方法不依赖训练集或预训练,仅使用谜题本身(两个示例输入/输出对和测试输入)进行推理[12] - 通过设计一个固定的“程序模板”,并将寻找最短程序的问题转化为寻找最短的种子和神经网络权重的问题[25][29] - 借鉴变分自编码器原理,将程序长度最小化转化为可微分的优化问题,使用KL散度和交叉熵损失来近似种子的预期长度,从而可用梯度下降求解[30][33][34] 模型架构与设计 - 模型参数极少,仅有76K参数[3][43] - 架构内置了强大的归纳偏置,包括对旋转、翻转、颜色置换等常见变换的等变性处理[38][39] - 使用“多张量”数据结构来存储不同粒度的信息,以支持更有效的抽象推理[40][41] - 核心骨干是类Transformer结构,但核心操作是一系列针对谜题规则高度定制的、无参数的自定义操作,而非传统注意力机制[42][44][46] 性能表现与对比 - 在ARC-AGI-1基准的公开评估集上,准确率达到20%,在训练集上达到34.75%[3][7][48] - 是目前唯一一个只在单个样本上运行的深度学习方法[4] - 相比其他方法:未使用训练集的暴力规则搜索准确率为40%,使用测试谜题训练的HRM变体为31%,使用训练和测试谜题训练的HRM为40.3%,基于互联网数据预训练的OpenAI o3模型则达到87.5%[4][19][20][21] - 该研究获得了ARC Prize 2025的第三名,且仅使用一张GPU完成[5] 实验与意义 - 为评估每个谜题提供2000个推理时训练步骤,每个谜题约花费20分钟[47] - 研究作为一个概念证明,展示了现代深度学习框架与最小描述长度理论结合的可能性[48] - 所针对的ARC-AGI-1基准由François Chollet提出,旨在评估AI处理新颖问题、习得技能的能力,是衡量通用人工智能能力的核心标尺之一[51][52]
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
技术突破与核心优势 - 提出名为EPG的新训练框架,通过自监督预训练与端到端微调相结合的方式,彻底消除了生成模型对变分自编码器的依赖[1] - 在ImageNet-256数据集上仅需75次模型前向计算即可达到2.04的FID分数,在ImageNet-512数据集上达到2.35的FID,生成质量优于主流模型[3] - 首次在不依赖VAE及预训练扩散模型权重的前提下,成功在像素空间中端到端训练一致性模型,在ImageNet-256上单步生成即可取得8.82的FID[5] 传统VAE范式的局限性 - VAE训练过程复杂,需要在图像压缩率与重建质量之间取得精妙平衡,极具挑战性[6] - 当需要在新的领域微调生成模型时,若预训练的VAE表现不佳,必须连同生成模型一起微调,这会显著增加训练成本和开发周期[6] 训练效率与成本 - EPG框架总训练开销显著低于主流模型DiT,预训练/VAE训练时间为57小时,而DiT为160小时;微调时间为139小时,而DiT预估为506小时[7] - 训练方法借鉴计算机视觉的经典范式,将复杂生成任务解耦为两个更易处理的阶段:自监督预训练和端到端微调,极大简化了训练流程[7][14] 两阶段训练方法详解 - 第一阶段自监督预训练专注于解耦表征学习与像素重建,模型仅训练编码器部分,通过对比损失和表征一致性损失从带噪图像中提取高质量视觉特征[8][9] - 第二阶段端到端微调将预训练好的编码器与随机初始化的解码器拼接,直接使用扩散模型或一致性模型的损失函数进行微调,无缝衔接下游生成任务[13] 性能基准对比 - 在ImageNet-256任务上,EPG/16模型的FID为2.04,优于隐空间模型如DiT-XL/2的2.27和SiT-XL/2的2.06,也优于其他像素空间模型[16] - 在ImageNet-512任务上,EPG/32模型在800个周期后FID达到2.35,优于对比的隐空间和像素空间模型[16] - 在一致性模型训练上,EPG在像素空间单步生成FID为8.82,显著优于隐空间模型如Shortcut-XL/2的7.80[17] 推理性能与可扩展性 - 基于EPG训练的扩散模型在推理时仅需75次模型前向计算即可达到最优效果,步数远低于其他方法[18] - 模型在256x256和512x512分辨率图像上均能保持一致的生成速度,展现了优异的可扩展性[18]