同策略强化学习 - 财报，业绩电话会，研报，新闻

同策略强化学习

搜索文档

融资20亿美元的Thinking Machines Lab首次公开：破解LLM随机性，实现可复现的“确定性”推理

锦秋集· 2025-09-11 17:19

文章核心观点 - 大型语言模型推理结果不确定性的根本原因并非行业普遍认为的"并发计算与浮点数误差"，而是核心计算算子缺乏"批次不变性" [1] - 通过重写Transformer模型中的RMSNorm、矩阵乘法和注意力机制三个关键计算模块，实现"批次不变性"，可确保计算过程不受批次大小干扰 [2] - 在标准环境中，一个请求重复1000次会得到80个不同版本的结果，而在批次不变方案下，1000次请求的结果完全一致 [2][75] 批次不变性技术原理 - 单个请求的计算过程受到整个"批次"大小影响，导致输出结果取决于随机打包的其他请求数量 [1][28] - 缺乏批次不变性的核函数会使系统在负载变化时产生不确定性，这与GPU、CPU或TPU平台无关 [33] - 实现批次不变性需要保证每个元素的规约顺序固定，不受核函数批次大小影响 [38] RMSNorm批次不变性实现 - 采用数据并行策略，将每个批次元素分配给单个核心处理，保持规约策略一致性 [37][39] - 当批次大小减小时，标准策略会导致核心空闲，而分割规约策略会破坏批次不变性 [43][45] - 解决方案包括忽略小批次情况或使用固定规约策略，但会牺牲峰值性能 [46] 矩阵乘法批次不变性实现 - 标准数据并行策略将输出张量分割成二维tile，每个tile规约保持在单个核心内 [49] - Split-K Matmul策略会破坏批次不变性，而张量核心指令切换也会导致不一致性 [51][54] - 通过编译固定核函数配置实现批次不变性，性能损失约20% [57][59] 注意力机制批次不变性实现 - FlashAttention2策略沿Q并行化并沿K/V规约，保持数据并行特性 [62] - 需要处理特征维度和序列维度双重规约，以及推理优化带来的序列切分变化 [64][65] - 采用固定分割大小策略而非固定分割数量，确保规约顺序一致性 [72][74] 实验结果验证 - 在Qwen/Qwen3-235B模型上测试，标准环境产生80个独特补全，批次不变方案实现1000次完全一致输出 [75] - 性能测试显示未优化确定性方案耗时55秒，优化后降至42秒，较默认26秒仍有差距但可接受 [78] - 真正同策略强化学习实现KL散度为0，显著提升训练稳定性 [79][80] 行业应用价值 - 该技术为需要高一致性的应用场景提供可行路径，如同策略强化学习、科学计算等 [3][79] - 解决训练与推理间数值计算差异问题，实现真正的逐比特一致性 [79][80] - 推动社区深入理解系统不确定性根源，提升机器学习系统可靠性 [83]

批次不变性

确定性推理

同策略强化学习

Artificial Intelligence

Artificial Intelligence

批次不变核函数

成立7个月首发声，百亿美金独角兽万字雄文：攻克LLM推理非确定性难题

36氪· 2025-09-11 16:11

公司动态 - Thinking Machines Lab推出研究博客专栏"Connectionism"并发表首篇博文专注于从内核数值计算到提示工程的研究进展分享[1][3] - 公司联合创始人兼OpenAI前副总裁Lilian Weng透露第一代旗舰模型命名为"Connection Machine" 名称源自1980年代神经网络研究子领域[1][3][4] - 公司通过GitHub开源项目(batch_invariant_ops)提供确定性推理实现演示项目获得174星和6个分支[41] 技术研究突破 - 发现LLM推理非确定性的核心根源是"批次大小变化"而非传统认为的"原子竞争+浮点数"假说通过实现批处理不变性解决该问题[20][21] - 针对三个关键操作设计批处理不变方案：数据并行RMSNorm(单核心内完成归约)[22][23][24]、数据并行矩阵乘法(损失约20%性能但保持确定性)[26][29]、固定块大小Split-KV注意力机制(确保归约顺序一致性)[33][36][38] - 实验验证：在Qwen3-235B模型上使用传统方法时1000次生成出现80种不同结果启用批处理不变kernel后全部1000次生成完全一致[42] 性能表现 - 确定性推理当前存在性能损耗：未优化版本耗时55秒(较默认vLLM的26秒下降111%) 优化注意力内核后降至42秒(仍较默认高61%)[44] - 性能下降主因是FlexAttention集成尚未充分优化但公司认为这种损耗在可接受范围内[45] 应用价值 - 实现真正同策略强化学习：训练与推理数值一致使KL散度降为0 避免奖励崩溃问题(未做重要性加权时在318步出现峰值)[47][48] - 解决长期存在的训练-推理差异问题使强化学习能持续平滑优化[47][48]

LLM推理非确定性

同策略强化学习

Artificial Intelligence

Connection Machine

LLM推理非确定性

同策略强化学习

Artificial Intelligence

Connection Machine