词元
搜索文档
AI计算迎来重大变革,英伟达押注的“推理”是什么?
凤凰网· 2026-03-17 10:15
AI行业焦点从训练转向推理 - AI领域正经历重大变革,焦点从过去五年大语言模型的高成本、长周期训练,转向模型部署和商业化所需的推理计算 [2][3] - 根据Gartner数据,2024年全球推理基础设施资本支出预计将首次超过训练资本支出 [3] - 到2029年,企业在推理上的投入预计将达到720亿美元,是训练投入370亿美元的近两倍 [3] 芯片市场需求与竞争格局变化 - 科技公司购买的芯片类型将因焦点转向推理而发生重大变化 [4] - 专门为推理任务优化的芯片(如来自谷歌、Cerebras Systems、SambaNova的产品)能带来性能提升,相关制造商正以越来越快的速度签下价值数十亿美元的订单 [4] - 英伟达在2023年12月斥资200亿美元获得定制推理芯片公司Groq的技术授权并吸纳其人才,准备推出自己的推理专用处理器 [4] 推理计算的技术原理与需求特点 - 推理计算是让训练好的AI模型响应用户查询的过程,类比为餐厅厨师接单备餐 [5][6] - 推理包含预填充和解码两个阶段:预填充阶段解读用户查询,需要更强的处理能力;解码阶段生成响应,需要更大的内存来调动模型积累的全部知识 [7][8] - 推理过程按需进行,耗时以秒计,对延迟极其敏感,超过十秒用户可能失去耐心 [11] - 推理芯片必须配备更大容量的高带宽内存,且数据中心需邻近用户以降低延迟 [11] - 芯片创业公司如Ayar Labs越来越多地采用数据传输更快、所需冷却更少的光纤连接组件 [11] 推理芯片的关键性能与成本指标 - 推理的基本数据单位是词元,通常一个词元约相当于四分之三个英文单词 [9] - 公司(如会计软件、旅行预订服务、图像生成器提供商)高度关注“每瓦每秒生成的词元数”或“每美元每秒生成的词元数”这类成本指标 [10] - 降低推理成本成为关键,推理芯片高效输出结果的能力变得尤为重要 [10] 训练与推理芯片的核心区别 - 训练芯片:需在长时间内处理海量数据,要求强大的处理能力,数据中心需充足能源和冷却水;内存不足时可将部分任务分派给其他芯片或等待内存释放 [11] - 推理芯片:需应对瞬时、低延迟需求,强调大容量高带宽内存和靠近用户的数据中心部署 [11]
漫谈词元(新知)
人民日报· 2026-01-28 08:32
在技术层面,加快"从0到1"的创新突破、"从1到N"的技术落地,更智能的人工智能体加速涌现,不仅能 拓展发展空间,还将助力重塑人类生产生活范式,促进生产力革命性跃迁。 【现象】人工智能浪潮席卷全球,人工智能大模型成为人们工作与生活的重要帮手。在这场浪潮中,有 个概念的曝光度很高——Token,即通常所说的词元,它是处理文本的最小数据单元。国家数据局披露 了这样一组数据:2024年初,我国日均词元的消耗量为1000亿,而截至2025年9月底,这一数字已突破 40万亿,1年多时间增长了400多倍。指数级增长的数字,见证我国人工智能产业的迅猛发展、应用规模 的快速扩大。 【点评】 怎么理解词元?简单来说,词元是人工智能大模型为了高效处理数据,把数据进行拆分后的"最小信息 载体",可以理解为"字/词片段/符号"等。比如"我爱中国!",可拆分成"我""爱""中国""!"4个词元。 如果说互联网时代信息传输的核心度量是"流量",那么人工智能时代,这一关键指标正变为词元——用 户输入的每一个字,模型生成的每一段话、识别的每一幅图像,都在消耗词元。 看似很抽象,实际上,每一次词元消耗都对应着真实的场景交互——可能是银行智能客 ...