RLAX
搜索文档
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 09:13
论文事件与核心作者 - 苹果公司一篇关于强化学习框架RLAX的论文在arXiv公开后又被迅速撤稿,具体原因不明,但论文的v1版本已被互联网记录[1][3] - 论文的四名核心作者中,通讯作者Kelvin Zou已从苹果离职加入Meta,另一通讯作者Cheng Leong是已在苹果工作超过13年的AI基础设施主管[8] - 作者名单中还包括六位近期已从苹果离职并加入其他顶尖AI公司的研究人员,他们分别加入了Meta、OpenAI、Anthropic、xAI以及一家隐身创业公司[9] RLAX框架的技术特点 - RLAX是一个专为在大规模分布式TPU集群上高效执行先进强化学习算法而设计的框架[12] - 框架采用参数-服务器架构,实现了训练器、推理工作器和验证器的逻辑分离,以灵活分配计算资源[14] - 系统完全支持抢占式调度,允许在更高优先级任务出现时立即回收TPU资源,而不会导致训练崩溃[15] - 框架提供可编程配置选项,允许用户在在线策略和离线策略强化学习之间灵活选择,通过设置陈旧度界限来控制权重更新频率[16] 实验设置与性能表现 - 实验使用了非苹果自家的硬件与服务:算力底座为1024张谷歌TPU v5p,验证环境调用亚马逊AWS Lambda服务,基础模型采用中国阿里开源的QwQ-32B模型[22][23] - 该实验组合被描述为“美中技术大乱炖”,反映了AI基础设施领域的实用主义倾向以及国产模型在代码推理领域的强大影响力[26] - 实验结果显示,RLAX仅用12小时48分钟,在1024个TPU v5p上将QwQ-32B模型的pass@8准确率提高了12.8%,同时在训练期间保持了对任务抢占的鲁棒性[24] 关键技术挑战与解决方案 - 论文披露了一个由bfloat16浮点数格式的非结合律特性引发的严重Bug:在TPU训练中,理论上应恒等于1.0的重要性采样比率出现了数值偏差[28][29][32] - 该问题的根源在于,JAX编译器在推理和训练阶段采用了不同的算子融合策略,导致计算顺序的微小差异在bfloat16下被放大,引发训练崩溃[33] - 苹果团队采用的解决方案是在训练器中强制重算,禁用大部分激活值的保存,迫使训练端的计算顺序模仿推理端,从而消除了数值问题[33] 行业与公司意义 - RLAX论文证明了苹果公司在AI基础设施领域拥有世界顶级的工程能力,能够驾驭复杂分布式系统并解决底层数值难题[35] - 论文的发布与撤稿事件,以及多位核心AI人才的流失,成为苹果AI发展当前阶段的一个标志性注脚[36]