华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位·2025-05-29 15:19
S-GRPO的全称为序列分组衰减奖励策略优化( S erial- G roup Decaying- R eward P olicy O ptimization),旨在提升大语言模型 (LLM)的推理效率和准确性,解决 冗余思考 问题。 S-GRPO团队 投稿 量子位 | 公众号 QbitAI AI回答问题太慢太长且无用,有没有能让大模型提前停止思考的方法? 华为提出了首个在Qwen3上还有效的高效推理方法—— S-GRPO ,突破了思维链 「冗余思考」 瓶颈。 通过 "串行分组 + 衰减奖励" 的设计,在保证推理准确性的前提下,让模型学会提前终止思考, 推理提速60% ,生成更精确有用的答案。 S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下, 使能模型在思 维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出 。 S-GRPO对单条完整推理路径进行分段截断 OpenAI o1, Deepseek-R1等推理模型依赖Test-Time Scaling law解决复杂的任务。 然而,过长的思维链序列的生成也显著增加了 ...