在策略强化学习

搜索文档
Mira Murati 创业公司首发长文,尝试解决 LLM 推理的不确定性难题
Founder Park· 2025-09-11 15:17
公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2024年2月成立的人工智能初创公司[2] - 公司推出新博客栏目Connectionism,涵盖从核函数数值计算到提示工程等广泛研究主题[3] - 核心开发者Horace He(前PyTorch核心开发者,Meta离职)加入公司并主导技术研究[8] LLM推理不确定性问题分析 - 大语言模型推理中存在不可复现性,即使温度参数设为0,API仍非确定性[10] - 开源推理库(如vLLM或SGLang)在自有硬件上运行同样存在非确定性问题[11] - 传统假设认为浮点非结合性与并发执行导致不确定性,但未完全解释根本原因[13][16] 不确定性根本原因 - 浮点运算的非结合性导致数值计算差异,但非直接原因[17][21] - 原子加法操作在并发环境下导致运行间不确定性,但LLM前向传播过程通常无需原子加法[26][29][33] - 核心问题在于缺乏批次不变性:核函数输出受batch size变化影响,而服务器负载决定batch size[35][37][40] 批次不变性解决方案 - 实现批次不变性需确保RMSNorm、矩阵乘法和注意力机制与batch size无关[42] - RMSNorm需固定归约顺序,避免因batch size变化改变并行策略[46][50] - 矩阵乘法需编译固定核函数配置,放弃Split-K等优化以保持一致性[56][60] - 注意力机制需处理序列维度和特征维度归约,采用固定拆分大小策略而非动态调度[67][72] 实验验证与性能 - 使用Qwen3-235B模型测试,未优化时1000次采样产生80种不同结果,首次差异出现在第103个token[76][77] - 启用批次不变性核函数后,1000次结果完全一致[78] - 当前未优化版本性能下降,但未出现灾难性性能损失(vLLM默认26秒 vs 确定性版本42秒)[80][81] 应用价值与行业意义 - 确定性推理可实现真正的在策略强化学习,避免训练与推理间数值差异导致的策略偏移[82] - 解决不确定性问题有助于提升科学研究的可复现性和系统可靠性[85] - 公司开源批次不变性核函数库,提供确定性推理示例(GitHub仓库thinking-machines-lab/batch_invariant_ops)[74][75]
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
机器之心· 2025-09-11 11:36
文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]