LLM推理不确定性 - 财报，业绩电话会，研报，新闻

LLM推理不确定性

搜索文档

Founder Park· 2025-09-11 15:17

公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2024年2月成立的人工智能初创公司[2] - 公司推出新博客栏目Connectionism，涵盖从核函数数值计算到提示工程等广泛研究主题[3] - 核心开发者Horace He（前PyTorch核心开发者，Meta离职）加入公司并主导技术研究[8] LLM推理不确定性问题分析 - 大语言模型推理中存在不可复现性，即使温度参数设为0，API仍非确定性[10] - 开源推理库（如vLLM或SGLang）在自有硬件上运行同样存在非确定性问题[11] - 传统假设认为浮点非结合性与并发执行导致不确定性，但未完全解释根本原因[13][16] 不确定性根本原因 - 浮点运算的非结合性导致数值计算差异，但非直接原因[17][21] - 原子加法操作在并发环境下导致运行间不确定性，但LLM前向传播过程通常无需原子加法[26][29][33] - 核心问题在于缺乏批次不变性：核函数输出受batch size变化影响，而服务器负载决定batch size[35][37][40] 批次不变性解决方案 - 实现批次不变性需确保RMSNorm、矩阵乘法和注意力机制与batch size无关[42] - RMSNorm需固定归约顺序，避免因batch size变化改变并行策略[46][50] - 矩阵乘法需编译固定核函数配置，放弃Split-K等优化以保持一致性[56][60] - 注意力机制需处理序列维度和特征维度归约，采用固定拆分大小策略而非动态调度[67][72] 实验验证与性能 - 使用Qwen3-235B模型测试，未优化时1000次采样产生80种不同结果，首次差异出现在第103个token[76][77] - 启用批次不变性核函数后，1000次结果完全一致[78] - 当前未优化版本性能下降，但未出现灾难性性能损失（vLLM默认26秒 vs 确定性版本42秒）[80][81] 应用价值与行业意义 - 确定性推理可实现真正的在策略强化学习，避免训练与推理间数值差异导致的策略偏移[82] - 解决不确定性问题有助于提升科学研究的可复现性和系统可靠性[85] - 公司开源批次不变性核函数库，提供确定性推理示例（GitHub仓库thinking-machines-lab/batch_invariant_ops）[74][75]

LLM推理不确定性

批次不变性

在策略强化学习

Artificial Intelligence

Artificial Intelligence

vLLM

SGLang