刚刚，Thinking Machines Lab首次发长文，揭开LLM推理不确定性真相

文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]