Token要成新货币了，但你真的知道它是什么吗？

AI大模型中的Token：定义与演变 - Token是AI大模型处理语言的基本单位，是语言的替代物，在模型中表现为一串编号[12] - 其概念源于1906年哲学家皮尔士提出的“类型-标记”区分，其中Token是抽象类型的具体实例[16][17][18] - 在数字时代，Token首先应用于1960年代的编译原理，作为语法分析的替身[24] - 当前AI领域的Token主要指通过BPE等算法从数据中统计得出的文本分割单元[39] Token生成技术：BPE算法及其影响 - 2016年，BPE算法被应用于神经机器翻译，通过统计字节对的共现频率来构建词表，解决了生词问题[33][36] - BPE算法不依赖语言学规则，仅通过统计训练语料中高频共现的字节对进行合并，从而生成Token词表[37][38][39] - 2018年，OpenAI推出Byte-level BPE，将处理起点降至字节层面，使模型能理论上处理任何语言[45][46][47] - 该技术一次性解决了词表爆炸、未登录词及无空格语言分割这三大传统难题[39] Token的经济学与语言不平等 - 大模型服务通常按Token消耗量计费，例如OpenAI的API明确按每千Token定价[51] - 由于编码和训练数据量的差异，不同语言表达相同语义所需的Token数量差异巨大[57] - 英文是最高效的基准，中文表达同样内容所需的Token数量约为英文的1.5到2倍，而缅甸语等小语种可能高达英文的5到10倍[57] - 这导致非英语用户需要支付更高成本，但在大模型的固定上下文窗口内，能处理的信息量却更少[53][54][55][56] - 这种不平等根植于训练数据的频率分布，BPE算法将历史形成的语言权力不对称编码进了系统底层[61] Token化带来的技术挑战与局限 - Token化可能导致“故障词元”问题，即对低频词汇（如生僻字、小众名称）处理不佳，产生错误或混淆[68][69] - 研究指出，Tokenizer为模型提供了“阻力最小的路径”，可能诱使模型选择输出高频、易生成的Token，而非进行正确推理[70] - 模型规模的扩大无法根本解决此问题，因为Tokenizer在模型训练前就已固定，决定了模型的“感知分辨率”[71][72] - 这意味着AI系统在最需要准确性的罕见术语、小语种及冷门知识领域，反而最可能表现不佳[77][78] Token的产业前景与权力结构 - NVIDIA CEO黄仁勋指出，Token将是一个万亿美元市场的基础，并将AI芯片称为“Token的铸造机”[13][81] - Token的权力地位并非源于其设计的完美性，而是源于其作为当前AI基础设施核心组件所形成的路径依赖和超高替代成本[82] - 如同美元、比特币或自然语言规则，Token的权威性是在一系列为解决局部问题而做出的合理选择中，偶然累积形成的[83][84][88][89] - 行业正在对主流语言进行优化，例如从GPT-3到GPT-4，同一中文句子的Token消耗量从38个降至15个，降低了60%[63][64] - 然而，词表容量有限，对中文等大语种的优化可能挤占小语种的“席位”，缺乏商业动力的小语种改善幅度有限[64][65]