Workflow
能量函数
icon
搜索文档
基于能量的Transformer横空出世!全面超越主流模型35%
量子位· 2025-07-08 15:30
模型架构突破 - 弗吉尼亚大学团队提出EBT架构,通过能量机制实现在跨模态及数据、参数、计算量、模型深度等维度全面超越Transformer++ [1] - EBT在离散文本和连续视觉模态下,数据量、批次大小、参数量、计算量等指标比Transformer++提升约35% [3] - EBT推理性能比Transformer++提高29% [7] 技术实现原理 - EBT通过能量最小化过程模拟思考:从随机预测开始,梯度下降优化至能量收敛,动态决定思考步数 [13][14] - EBT基于EBM原理,学习能量函数为输入配置分配标量值,能量越低表示输入兼容性越高 [15][16][17] - 研究者将EBM学习转化为优化问题,通过隐式正则化能量空间避免维度灾难,实现可扩展训练 [22][23] 性能优势与实验验证 - EBT在数据量、批量大小、网络深度等六个维度扩展实验中均优于Transformer++ [27][28] - 训练时间增加使EBT思考能力提升,验证性能增幅从4%-8%扩大到10%-14% [28] - EBT在图像去噪任务中性能优于扩散模型,且前向计算次数减少99% [32] 应用与扩展性 - EBT为系统2思维实现提供新思路,展现强扩展性和泛化能力 [34] - 支持两种变体:受GPT启发的解码器单向EBT用于自回归建模,双向EBT支持填充和掩码建模 [31] 研究者背景 - 论文一作Alexi Gladstone专注系统2思维、EBM及多模态学习,获NSF奖学金和ICML 2025最佳审稿人荣誉 [37][40] - 作者Yilun Du研究生成模型与具身智能,提出以EBM构建可组合生成模型突破数据依赖 [44][46]