“Token”必须死？

文章核心观点 - 当前基于离散Token的自回归大语言模型范式存在结构性天花板，可能无法通向通用人工智能[5][11] - 将语言生成的核心建模过程从离散Token空间转移到连续Embedding或潜空间，是突破该天花板、通往更高性能AGI的潜在技术路径[5][6] - 行业内的顶尖研究团队和科技巨头已开始探索或实践“逃逸”Token范式的连续空间建模方法，这可能引发AI技术栈和商业模式的根本性变革[14][15][30] 01 天花板在哪？ - 人类语言是大脑对连续、高维认知体验进行有损压缩后的离散符号，是跨脑传输的工程妥协[9][10] - 自回归大模型在人类语言的压缩输出格式上建模，擅长模拟语言行为，但无法触及和理解那些从未被语言编码过的世界维度（如身体感受、空间直觉、因果干预的具身反馈）[11] - Token范式的训练信号存在信息论上的硬上限，在压缩产物上建模无法还原世界被丢弃的结构，这构成了其通往AGI的结构性天花板[12][33] 02 “逃逸”实验 - 何恺明团队的ELF模型将文字生成全过程保留在连续向量空间完成，仅最后一步映射回文字，使用Flow Matching框架，仅用32个采样步和约450亿Token训练数据（主流方法的十分之一），生成质量即超越离散模型1024步的结果[14] - 字节跳动Seed团队的Cola DLM先将语言压缩至语义潜空间，在该连续空间用Flow Matching建模全局先验，再解码回文字，其20亿参数模型在8个基准测试中，与同体量自回归模型及1000亿参数的LLaDA 2.0对比，显示出健康的扩展曲线[15] - 两项实验共同证明，Token不是语言建模的必要条件，连续空间范式可以做得更好、更快、更省[18] 03 AI巨头也在质疑“Tokenization”？ - Google：坚定走向“原生多模态统一”，其Gemini系列模型从底层为所有模态（文本、图像、音频、视频）构建统一的连续坐标系，共享注意力层，Gemini Embedding 2将所有模态输入映射到同一个3072维向量空间[22] - OpenAI：路径更曲折，GPT-4V采用视觉编码器外挂架构，GPT-5系列加强了多模态整合，但架构细节未披露；公司已砍掉Sora视频应用以集中算力，可能是在等待更高效的多模态统一架构[23] - 字节跳动：其Cola DLM论文指出为离散文本与连续模态统一建模提供了路径，旗下视频生成模型Seedance系列已采用类似连续潜空间架构，并拥有抖音/TikTok的海量视频数据优势[24] - Anthropic：独特地刻意回避多模态生成，将资源集中于文本推理和代码执行，其Claude Code年化收入达250亿美元，公司隐含估值达1.2万亿美元，但可能积累技术债，在未来竞争转向统一连续空间时陷入被动[24][25] - 独立研究者：OpenAI前首席科学家Ilya Sutskever认为“预训练即将终结”，其创办的SSI公司融资200亿美元，估值320亿美元，押注下一代范式[5][25]；图灵奖得主Yann LeCun离开Meta创办AMI Labs，融资10.3亿美元，估值35亿美元，其JEPA路线同样主张离开Token空间，在连续表征空间建模世界因果规律[5][26] 04 如果token范式衰退，谁会没有未来？ - 视频Tokenizer公司：如VQ-VAE、MAGVIT等，若视频这类天然连续的数据不再默认被压缩为离散Token序列，其核心价值将受到挑战[28] - “多模态”产品叙事与中间层：当所有模态在基础模型层面原生统一于一个连续空间时，“多模态能力”将变为默认配置，不再构成差异化卖点，从事模态桥接和对齐的中间层产品可能失去存在基础[29] - 按Token计费的商业模式：自回归模型的成本与输入输出Token数直接挂钩，若核心计算迁移至连续空间（如扩散模型以固定步数生成任意长度文本），输出长度与计算量脱钩，当前以Token消耗量为基础的定价体系可能失效[30] 05 大语言模型能走到AGI吗？ - 从Token范式本身的结构来看，不能，因其训练信号存在信息论硬上限，无法还原被人类语言压缩所丢弃的世界结构[33] - 但“杀死Tokenization”本身也不等于到达AGI，即使如ELF和Cola DLM转向连续空间，其训练数据仍来自人类有损压缩后的内容[33] - 通往AGI的下一步可能在于模型能够进行主动探索，在世界中行动并从反馈中学习，即递归自我改进[34]