Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
Meta PlatformsMeta Platforms(US:META) 36氪·2025-10-24 19:47

核心观点 - Meta推出名为“自由Transformer”的新模型,首次打破自2017年以来所有GPT模型的核心规则,模型在生成前能进行“预先思考”,而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z,为Transformer增加一层“潜意识”,使模型能够早期做出全局决策,从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销,但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升,可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z,可视为生成文本前的“潜意识层”,模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的,Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同,Free Transformer先采样一个随机状态Z,然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态,但在推理时跳过编码器,直接采样隐藏状态并仅运行解码器,这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上,Free Transformer在多项测试中表现显著提升:HumanEval+得分最高提升55.56%,MBPP测试最高提升35.71%,GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善:HumanEval+得分最高提升19.23%,MBPP测试最高提升18.71%,GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定,没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息,如主题、情感或模式位置,而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取,由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练,防止隐状态记忆整个序列,仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值(从1/64 bit到8 bits),可以调控Z携带的信息量:信息过少则模型表现接近普通解码器,信息过多则会导致训练退化[37][38] - 在合成任务测试中,Z成功学会了编码目标位置和噪声模式等全局属性,证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构,改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室,由Yann LeCun领导的团队进行,专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑,从“预测下一个词”迈向“思考如何表达”,可能开启后自回归时代[30][31]