Meta打碎Transformer 8年铁律，改写AI最底层规则，模型首次冒出潜意识

核心观点 - Meta推出名为“自由Transformer”的新模型，首次打破自2017年以来所有GPT模型的核心规则，模型在生成前能进行“预先思考”，而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z，为Transformer增加一层“潜意识”，使模型能够早期做出全局决策，从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销，但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升，可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z，可视为生成文本前的“潜意识层”，模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的，Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同，Free Transformer先采样一个随机状态Z，然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态，但在推理时跳过编码器，直接采样隐藏状态并仅运行解码器，这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销，大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上，Free Transformer在多项测试中表现显著提升：HumanEval+得分最高提升55.56%，MBPP测试最高提升35.71%，GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善：HumanEval+得分最高提升19.23%，MBPP测试最高提升18.71%，GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定，没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息，如主题、情感或模式位置，而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取，由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练，防止隐状态记忆整个序列，仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值（从1/64 bit到8 bits），可以调控Z携带的信息量：信息过少则模型表现接近普通解码器，信息过多则会导致训练退化[37][38] - 在合成任务测试中，Z成功学会了编码目标位置和噪声模式等全局属性，证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构，改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室，由Yann LeCun领导的团队进行，专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑，从“预测下一个词”迈向“思考如何表达”，可能开启后自回归时代[30][31]