漫谈词元(新知)
人民日报·2026-01-28 08:32
在技术层面,加快"从0到1"的创新突破、"从1到N"的技术落地,更智能的人工智能体加速涌现,不仅能 拓展发展空间,还将助力重塑人类生产生活范式,促进生产力革命性跃迁。 【现象】人工智能浪潮席卷全球,人工智能大模型成为人们工作与生活的重要帮手。在这场浪潮中,有 个概念的曝光度很高——Token,即通常所说的词元,它是处理文本的最小数据单元。国家数据局披露 了这样一组数据:2024年初,我国日均词元的消耗量为1000亿,而截至2025年9月底,这一数字已突破 40万亿,1年多时间增长了400多倍。指数级增长的数字,见证我国人工智能产业的迅猛发展、应用规模 的快速扩大。 【点评】 怎么理解词元?简单来说,词元是人工智能大模型为了高效处理数据,把数据进行拆分后的"最小信息 载体",可以理解为"字/词片段/符号"等。比如"我爱中国!",可拆分成"我""爱""中国""!"4个词元。 如果说互联网时代信息传输的核心度量是"流量",那么人工智能时代,这一关键指标正变为词元——用 户输入的每一个字,模型生成的每一段话、识别的每一幅图像,都在消耗词元。 看似很抽象,实际上,每一次词元消耗都对应着真实的场景交互——可能是银行智能客 ...