AI大模型中的Token:定义与演变 - Token是AI大模型处理语言的基本单位,是语言的替代物,在模型中表现为一串编号[12] - 其概念源于1906年哲学家皮尔士提出的“类型-标记”区分,其中Token是抽象类型的具体实例[16][17][18] - 在数字时代,Token首先应用于1960年代的编译原理,作为语法分析的替身[24] - 当前AI领域的Token主要指通过BPE等算法从数据中统计得出的文本分割单元[39] Token生成技术:BPE算法及其影响 - 2016年,BPE算法被应用于神经机器翻译,通过统计字节对的共现频率来构建词表,解决了生词问题[33][36] - BPE算法不依赖语言学规则,仅通过统计训练语料中高频共现的字节对进行合并,从而生成Token词表[37][38][39] - 2018年,OpenAI推出Byte-level BPE,将处理起点降至字节层面,使模型能理论上处理任何语言[45][46][47] - 该技术一次性解决了词表爆炸、未登录词及无空格语言分割这三大传统难题[39] Token的经济学与语言不平等 - 大模型服务通常按Token消耗量计费,例如OpenAI的API明确按每千Token定价[51] - 由于编码和训练数据量的差异,不同语言表达相同语义所需的Token数量差异巨大[57] - 英文是最高效的基准,中文表达同样内容所需的Token数量约为英文的1.5到2倍,而缅甸语等小语种可能高达英文的5到10倍[57] - 这导致非英语用户需要支付更高成本,但在大模型的固定上下文窗口内,能处理的信息量却更少[53][54][55][56] - 这种不平等根植于训练数据的频率分布,BPE算法将历史形成的语言权力不对称编码进了系统底层[61] Token化带来的技术挑战与局限 - Token化可能导致“故障词元”问题,即对低频词汇(如生僻字、小众名称)处理不佳,产生错误或混淆[68][69] - 研究指出,Tokenizer为模型提供了“阻力最小的路径”,可能诱使模型选择输出高频、易生成的Token,而非进行正确推理[70] - 模型规模的扩大无法根本解决此问题,因为Tokenizer在模型训练前就已固定,决定了模型的“感知分辨率”[71][72] - 这意味着AI系统在最需要准确性的罕见术语、小语种及冷门知识领域,反而最可能表现不佳[77][78] Token的产业前景与权力结构 - NVIDIA CEO黄仁勋指出,Token将是一个万亿美元市场的基础,并将AI芯片称为“Token的铸造机”[13][81] - Token的权力地位并非源于其设计的完美性,而是源于其作为当前AI基础设施核心组件所形成的路径依赖和超高替代成本[82] - 如同美元、比特币或自然语言规则,Token的权威性是在一系列为解决局部问题而做出的合理选择中,偶然累积形成的[83][84][88][89] - 行业正在对主流语言进行优化,例如从GPT-3到GPT-4,同一中文句子的Token消耗量从38个降至15个,降低了60%[63][64] - 然而,词表容量有限,对中文等大语种的优化可能挤占小语种的“席位”,缺乏商业动力的小语种改善幅度有限[64][65]
Token要成新货币了,但你真的知道它是什么吗?
虎嗅APP·2026-03-30 18:26