文章核心观点 - 当前基于离散Token的自回归大语言模型范式存在结构性天花板,可能无法通向通用人工智能[5][11] - 将语言生成的核心建模过程从离散Token空间转移到连续Embedding或潜空间,是突破该天花板、通往更高性能AGI的潜在技术路径[5][6] - 行业内的顶尖研究团队和科技巨头已开始探索或实践“逃逸”Token范式的连续空间建模方法,这可能引发AI技术栈和商业模式的根本性变革[14][15][30] 01 天花板在哪? - 人类语言是大脑对连续、高维认知体验进行有损压缩后的离散符号,是跨脑传输的工程妥协[9][10] - 自回归大模型在人类语言的压缩输出格式上建模,擅长模拟语言行为,但无法触及和理解那些从未被语言编码过的世界维度(如身体感受、空间直觉、因果干预的具身反馈)[11] - Token范式的训练信号存在信息论上的硬上限,在压缩产物上建模无法还原世界被丢弃的结构,这构成了其通往AGI的结构性天花板[12][33] 02 “逃逸”实验 - 何恺明团队的ELF模型将文字生成全过程保留在连续向量空间完成,仅最后一步映射回文字,使用Flow Matching框架,仅用32个采样步和约450亿Token训练数据(主流方法的十分之一),生成质量即超越离散模型1024步的结果[14] - 字节跳动Seed团队的Cola DLM先将语言压缩至语义潜空间,在该连续空间用Flow Matching建模全局先验,再解码回文字,其20亿参数模型在8个基准测试中,与同体量自回归模型及1000亿参数的LLaDA 2.0对比,显示出健康的扩展曲线[15] - 两项实验共同证明,Token不是语言建模的必要条件,连续空间范式可以做得更好、更快、更省[18] 03 AI巨头也在质疑“Tokenization”? - Google:坚定走向“原生多模态统一”,其Gemini系列模型从底层为所有模态(文本、图像、音频、视频)构建统一的连续坐标系,共享注意力层,Gemini Embedding 2将所有模态输入映射到同一个3072维向量空间[22] - OpenAI:路径更曲折,GPT-4V采用视觉编码器外挂架构,GPT-5系列加强了多模态整合,但架构细节未披露;公司已砍掉Sora视频应用以集中算力,可能是在等待更高效的多模态统一架构[23] - 字节跳动:其Cola DLM论文指出为离散文本与连续模态统一建模提供了路径,旗下视频生成模型Seedance系列已采用类似连续潜空间架构,并拥有抖音/TikTok的海量视频数据优势[24] - Anthropic:独特地刻意回避多模态生成,将资源集中于文本推理和代码执行,其Claude Code年化收入达250亿美元,公司隐含估值达1.2万亿美元,但可能积累技术债,在未来竞争转向统一连续空间时陷入被动[24][25] - 独立研究者:OpenAI前首席科学家Ilya Sutskever认为“预训练即将终结”,其创办的SSI公司融资200亿美元,估值320亿美元,押注下一代范式[5][25];图灵奖得主Yann LeCun离开Meta创办AMI Labs,融资10.3亿美元,估值35亿美元,其JEPA路线同样主张离开Token空间,在连续表征空间建模世界因果规律[5][26] 04 如果token范式衰退,谁会没有未来? - 视频Tokenizer公司:如VQ-VAE、MAGVIT等,若视频这类天然连续的数据不再默认被压缩为离散Token序列,其核心价值将受到挑战[28] - “多模态”产品叙事与中间层:当所有模态在基础模型层面原生统一于一个连续空间时,“多模态能力”将变为默认配置,不再构成差异化卖点,从事模态桥接和对齐的中间层产品可能失去存在基础[29] - 按Token计费的商业模式:自回归模型的成本与输入输出Token数直接挂钩,若核心计算迁移至连续空间(如扩散模型以固定步数生成任意长度文本),输出长度与计算量脱钩,当前以Token消耗量为基础的定价体系可能失效[30] 05 大语言模型能走到AGI吗? - 从Token范式本身的结构来看,不能,因其训练信号存在信息论硬上限,无法还原被人类语言压缩所丢弃的世界结构[33] - 但“杀死Tokenization”本身也不等于到达AGI,即使如ELF和Cola DLM转向连续空间,其训练数据仍来自人类有损压缩后的内容[33] - 通往AGI的下一步可能在于模型能够进行主动探索,在世界中行动并从反馈中学习,即递归自我改进[34]
“Token”必须死?
投中网·2026-05-28 14:39