TOKEN - 财报，业绩电话会，研报，新闻

TOKEN

搜索文档

机器之心· 2026-03-04 17:15

文章核心观点 - 文章提出，将香农信息论的核心从“比特”转换为“标记”，可以建立一套名为“语义信息论”的框架，从而从第一性原理上解释大模型的底层工作机制 [2] - 大模型本质上可被建模为一个“有状态、带反馈的信道”，其输入和输出均为标记序列，这为理解其训练和推理提供了与具体实现无关的数学模型 [43][44] - 通过引入“定向信息”和“定向信息密度”等信息论测度，可以形式化地描述大模型的性能指标、训练目标以及推理阶段的语义信息流 [23][33][39] - 该理论框架将大模型的预训练、后训练（如人类偏好对齐）和推理阶段统一在信息论视角下进行解释，并揭示了提示工程等信息论原理 [44][48][56] - 作者认为，“标记”是AI时代与“比特”同等重要的核心概念，它将连接经验与理性，定义新的时代 [67] Shannon信息论基础与方法论 - 香农信息论主要解决可靠数字通信问题，其三大核心结论是：信源编码定理（熵为无损压缩下界）、噪声信道编码定理（信道容量为可靠通信速率上界）、信源-信道分离定理 [7][12][14] - 香农采用“以数学补物理”的自顶向下方法论，从系统应具备的功能和数学性质出发，而非纠结具体技术实现，这对构建大模型理论具有启发性 [15] - 香农用转移概率建模信道，用互信息衡量统计相关性并导出信道容量，这些概率方法具有普适性，为后续建模奠定了基础 [8][20][21] 面向大模型的信息论测度 - **速率-失真函数**：用于刻画有损压缩性能，其核心是互信息，定义了在给定失真度约束下，重构信源所需的最小信息速率 [24] - **定向信息**：由James Massey提出，用于描述带反馈或因果关系的信道中，从输入序列到输出序列的统计相关性，突破了经典互信息的局限 [27][33] - **定向信息密度**：是定向信息在单次样本上的对应，是一个随机变量，其数学期望等于定向信息，具有良好的数学性质便于分析 [36][39][55] 大模型的信息论建模 - 大模型被抽象为一个有状态、带反馈的信道，其转移概率为 \(P(U_i | S_{1:n}, U_{n+1:i-1}; \Phi)\)，其中 \(S\) 为输入标记，\(U\) 为输出标记，\(\Phi\) 为模型参数 [43] - 从信息论视角看，通信问题与大模型问题的区别在于：通信的目标是无差错恢复信息，损失函数基于互信息；大模型的目标是建模人类输出分布，损失函数使用与KL散度等价的交叉熵 [45] 训练阶段的语义信息论原理 - **预训练阶段**：定义了“定向速率-失真函数” \(R_{pre}(D)\)，其描述了在生成输出与人类期望输出的KL散度不超过 \(D\) 的条件下，从输入到输出所需的最小定向信息量 [44][46] - 预训练的理想损失函数建议为 \(L(\Phi) = I(S_{1:n}; U_i | U_{n+1:i-1}; \Phi) + \lambda H(P_i^h, Q_i^\Phi)\)，最小化定向信息有助于过滤无用信息，减少幻觉 [44] - 理想收敛时，预训练模型逼近 \(R_{pre}(0) = \frac{1}{N}I(S_{1:n} \rightarrow U_{n+1:N}^h)\)，即从输入到输出的定向信息逼近人类水平 [47] - **后训练阶段**：定义了“奖励-失真函数”，其最优解等价于直接偏好优化算法中的损失函数，通过最大化符合人类偏好的定向信息来对齐模型 [48][49] 推理阶段的语义信息论原理 - 推理阶段关注特定输入下的输出，定义“语义信息流”为基于定向信息密度的单次推理度量 \(I(S_{1:n} \rightarrow U_{n+1:j}; \Phi^+)\) [50] - 语义信息流具有下鞅等良好数学性质，可通过现代数学工具研究 [54][55] - 定义了“语义信息容量” \(C_S\)，即通过调整输入标记的概率分布 \(P(S_{1:n})\)，所能最大化的、满足人类偏好奖励约束 \(W\) 的定向信息，这为提示词工程提供了信息论原理 [55][56] 因果推断与大模型 - 大模型通过预测下一个标记的训练目标，实现了逼近人类水平的格兰杰因果推断 [60] - 传递熵是有限长版本的定向信息，对于向量高斯过程，传递熵与格兰杰因果等价 [61][62] - 格兰杰因果属于Pearl因果层级中的Level-A（关联问题），关注数据驱动的预测；而Pearl因果的Level-B（干预）和Level-C（反事实）需要额外的、不可从数据中识别的因果假设 [63][64] - 当前大模型与强化学习结合，本质上是模仿人类语料中的干预和反事实模式进行预测，而非真正的因果推理 [65] 计算与估计方法 - 定向信息的计算可推广经典的Blahut-Arimoto算法 [57] - 提出了基于神经网络的定向信息估计器，以及利用Transformer本身来估计传递熵的方法，表明Transformer与定向信息天然契合 [58] 时代意义与核心概念 - “比特”连接了计算与通信，定义了信息时代；“标记”将连接经验（记忆、推断）与理性（推理），定义AI时代 [67] - 无论大模型当前技术路径能否通向AGI，其已革命性提升了信息自动化处理能力，AI时代的大幕已经开启 [68]

重温《英伟达GTC 2025》：挖掘AI算力需求预期差？

2025-07-07 08:51

纪要涉及的行业和公司 - **行业**：美股算力领域、AI 产业、数据中心市场 - **公司**：英伟达、微软、谷歌、亚马逊、Oracle、Marvell、戴尔、台积电纪要提到的核心观点和论据 1. **算力需求现状与变化** - 全球 AI 算力跟踪方式与以往不同，过去依赖产业链数据，如今需关注大模型和应用，美股算力领域上涨由推理和训练需求共振驱动 [2] - AI 计算需求和扩展速度超加速增长，因推理模型出现，计算量比一年前预期至少高出 100 倍 [2][16] 2. **GTC 大会影响** - 今年参会人数较去年增长 50%，AI 产业人士增加，对 AI 产业重要性提升，重温可挖掘信息差和预期差，是海外算力链上涨核心原因 [3] - 提出 agentic AI 概念，与传统 LLM 不同，强调任务分布执行和规划 [6] 3. **算力需求相关因素** - 算力需求空间与 TOKEN 量密切相关，海外算力公司涨幅不能仅用传统业绩解释，需分析 TOKEN 量对计算需求的影响 [1][4] - 未来海外算力链发展需关注大模型和应用、全球市场变化、GTC 大会信息差、TOKEN 量与计算需求关系 [5] 4. **AI 范式区别** - agentic AI 与 generative AI 是不同范式，前者侧重协作和目标驱动，后者是生成式 AI [7] - agent 是独立执行任务个体，agentic AI 是协作性目标驱动系统 [11] 5. **Skin law 曲线** - 现在有三条 skin law 曲线，分别对应预训练、后训练和测试时间，三个阶段都存在算力需求通胀 [1][8] 6. **后训练与测试时间** - 后训练通过强化学习等优化模型，不涉及卷模型参数；测试时间指推理市场，是结果导向型 [9] 7. **协作型 AI** - 涉及多步骤、多代理等协作过程，信息沟通依赖 TOKEN，全球 TOKEN 量爆发提升了算力需求 [2][12] 8. **数据问题解决** - 强化学习产生的 COT TOKEN 数据和合成数据可用于模型训练，不必担心数据不足 [13] 9. **互联网大厂策略** - 免费开放 AI 应用是为保持竞争力和获取 TOKEN 数据用于训练下一代模型 [14] 10. **推理模型** - reasoning model 与传统大语言模型不同，需详细列出思考过程，增加了算力和 TOKEN 需求，比 one shot 方式至少高出 100 倍 [18][19] 11. **后训练应用** - 后训练在强化学习中用大量 tokens 验证和调整模型，计算需求高，推理环节 token 消耗量远超 chatbot [20] 12. **Token 相关关系** - Agentic AI 与 token 消耗是指数关系，token 与计算量关系复杂，总算力需求等于 Token 数量乘以单 Token 算力成本 [21][22][23] - TOKEN 量增加与计算需求不是 1:1 关系，可能是 1:n，n 可能为 10 甚至更高 [25][26] 13. **海外 AI 应用** - 海外 AI 应用中 TOKEN 量爆发因 Deepseek 降低成本，推动应用快速增长 [27] 14. **单任务执行问题** - 可通过增加算力降低单任务执行等待时间，涉及延迟和吞吐量权衡 [28] 15. **不同 AI 模型差异** - Chatbot 与 Deep Research Agent、通用模型与测试模型在 TOKEN 消耗上存在显著差异 [30] 16. **云服务提供商需求** - 四大云服务提供商对 GPU 需求巨大，2024 年买 130 万张 Hopper 架构 GPU，2025 年已买 360 万张 Blackwell 芯片 GPU [31] 17. **数据中心市场** - 预计到 2028 年数据中心市场规模达 1 万亿美金以上，2025 年是需求增长拐点 [32] 18. **英伟达战略** - 加强与戴尔合作，向政企领域拓展，利用戴尔客户网络 [33] 19. **算力需求驱动因素** - 底层计算架构从 CPU 转换为 GPU，软件未来需资本投入，通过自身生成 TOKEN 交互协作，推动算力需求 [34] 20. **软件运行模式转变** - “软件加算力”替代“软件加能力”，软件运行将自动化，企业依赖计算资源而非人力 [37] 21. **算力需求阶段** - 当前处于算力需求拐点向上阶段，因计算架构转换和 AI 技术发展，算力需求爆发式增长 [38] 22. **推理图表数据** - 单个用户每秒钟处理 TOKEN 量与智能 AI 反应速度有关，吞吐量越大、系统响应越快，影响用户体验 [39] 23. **Token 资源分配** - AI 应用中 Token 是资源，用户单位时间获 Token 数量影响应用运行速度，吞吐量决定系统任务执行和用户数 [41] 24. **AI 工厂优化** - 可通过增加 HBM 存储容量、提高存储带宽、优化算法和架构优化 AI 工厂吞吐量，提升系统性能 [42] 25. **公司股价上涨** - 英伟达和台积电等公司股价创新高因 AI 算力需求大幅增长，公司创新技术满足需求 [43][44] 26. **资本市场逻辑** - 资本市场对 AI 算力需求变化基于新需求驱动，深入研究原因可准确预测未来发展方向 [45] 其他重要但可能被忽略的内容 - 微软 2025 年一季度总吞吐量达 100 万亿个 tokens，谷歌 4、5 月吞吐量为 480 万亿个 tokens，后训练一次至少需 100 万亿个 tokens [20] - 从 2025 年 2 月底出现拐点，Deepseek 于 2024 年 1 月底发布，推动海外 AI 应用发展 [27] - 英伟达股价从 2024 年 6 月到 2025 年 6 月横盘一年，2025 年 6 月底突破新高 [44]

2025-04-27 23:11

纪要涉及的行业和公司 - **行业**：AI行业、金融行业、制造业、政务、医疗、旅游、办公、游戏、视频、SaaS软件行业 - **公司**：阿里、腾讯、字节、百盛集团、Minimax、智谱、Midas、Chorus、佳邦科技纪要提到的核心观点和论据国内MCP发展情况 - **发展滞后原因**：模型本身多任务规划与执行能力不足，如阿里千问2.5在多任务规划方面与Cloud 3.7有差距；生态系统不完善，国内无类似国外Manners和CodeBot的超级AI agent；国内大厂采取保守策略，优先在自身生态内发展[2] - **发展前景**：虽目前发展慢，但通过提升模型能力、扩展应用范围、优化生态系统和大厂开放合作，预计一至一年半后有更多震撼性应用出现[4] 阿里相关业务情况 - **钉钉和夸克定位**：钉钉是阿里AI ToB入口级应用，注重商业化落地与营收；夸克是AI ToC入口级应用，关注DAU增长和TOKEN消耗[1][7] - **百炼平台**：定位为专属模型训练和部署平台，通过MCP协议构建agent store生态，商业模式有项目制服务、AI agent销售分成和TOKEN册收入[3][11] - **TOKEN消耗与算力分配**：2025年千问单日TOKEN消耗达5万亿 - 6万亿，引入三方模型后总消耗量增加40%，预计Q2结束时突破10万亿；算力分配优先保证模型训练和实时推理[3][12][13] - **千问模型费用调整**：2025年预计下调30% - 50%，以降低企业使用成本，提高竞争力[1][6][9] 产品情况 - **Manas超级代理入口**：处理复杂任务时TOKEN消耗大，每次约15万 - 30万TOKEN；企业用户接受度高，开发者超千家，日TOKEN调用量3500亿 - 4500亿；定价高因技术壁垒和运营成本高，未来可能降价[1][5][8] - **Zinus产品**：定价每月199美金或299美金，市场反应积极，开发者多，日TOKEN调用量3500亿 - 4500亿；技术溢价性强，未来可能面临价格竞争[1][6] - **通义千问3.0模型**：采用MOE架构节省训练成本，支持128K长上下文窗口；中文语料占比超40%，多模态能力提升；价格竞争力强，生态合作能力好[15][16] MCP协议与应用 - **促进作用**：作为标准化接口协议，提供统一接口，促进agent应用落地，如金融机构和医疗领域已有实际应用案例[17] - **落地应用案例**：集中在旅游规划、金融、制造、政务、医疗和办公等领域，如旅游规划系统可提供路线规划，金融领域可用于贷款审批和投资理财风险评估等[18] AI发展趋势与商业化 - **AI agent发展趋势**：未来将进入AI agent涌现阶段，推动各行业数字化转型和创新[19] - **AI需求增长与商业化变现维度**：关注每日TOKEN调用量、产业端商业化营收数据、优秀超级AI应用宣传[20] 国内大厂AI发展路径 - **腾讯**：主要发力游戏和视频领域，优势在ToC领域[21] - **字节和阿里**：在ToB领域竞争激烈，飞书与钉钉在办公领域形成分流[21] AI产品推广与影响 - **推广现状**：企业推广两极分化，不到10%企业积极拥抱，多数企业需看到市场验证才考虑采用，商业化进程缓慢[22] - **对SaaS公司影响**：既带来转型为MCP工具服务商的机会，也面临失去入口级地位的风险，传统SaaS公司努力将产品AI化[23][24] 其他重要但是可能被忽略的内容 - **H20禁令影响**：导致集团2026年预期采购10万张卡目标难实现，计划用国产卡替代，预计2025年国产芯片在实时推理算力需求中占比超50%，资本开支可能增加[14] - **AI眼镜核心场景**：基于视觉显示和摄像头实时拍照提问，增强AI搜索体验，但关键在于准确度[25] - **企业接入MCP协议渗透率低原因**：企业处于观望阶段，传统SaaS公司需适应新商业模式[26] - **MCP工具服务商接入新AI应用条件**：AI应用具备全能型多任务处理能力时会大量接入[27] - **渗透率情况与加速因素**：目前处于初步阶段，模型能力提升和工程化AI agent能力增强可加速渗透率提升[28] - **佳邦科技作用**：在B端客户落地中进行知识清洗、梳理和调优，确保数据有效利用，提高落地效率[28][29] - **阿里AI知识梳理与调优**：是核心环节，因涉及处理复杂多模态数据，未来平台可能逐渐掌握该能力，减少对外部合作依赖[30][31][32]

MCP（多通道平台）

AI agent

TOKEN

Software and Internet

Software and Internet

钉钉

夸克