核心观点 - 阶跃星辰公司推出名为并行协同推理的全新训练和推理框架,该框架通过大规模并行协同的方式,使模型能够进行广度和深度思考,突破了传统线性思维链在上下文窗口和处理速度上的限制 [2] - 基于该框架训练的PaCoRe-8B模型在HMMT 2025数学基准测试中取得94.5分,超越了GPT-5的93.2分,其性能提升得益于模型在解决单个问题时能有效利用高达两百万Token的计算量 [3] - 该研究标志着在扩展通用人工智能推理阶段计算规模的方向上迈出了坚实一步,并计划通过开源模型、训练数据和推理代码来加速该领域的研究与创新 [2][3][29] PaCoRe框架机制 - 框架核心是迭代消息传递架构,它将推理的主要驱动力从“串行深度”转移到“并行协同的广度”,从而解耦了推理能力与上下文窗口容量的强耦合关系 [7] - 推理流程包含三个关键步骤:综合与并行探索、消息压缩、迭代协同,通过循环机制将“有效测试时计算量”扩展到远超模型物理上下文窗口限制的程度 [13][14] - 该机制允许在遵守固定上下文限制的同时,产生数百万Token的有效测试时计算量,最终的压缩消息即为系统答案 [12] 训练方法与能力涌现 - 训练采用大规模、基于结果的强化学习,旨在教会模型“推理综合”能力,即审查并行分支、调和冲突证据并提炼统一解决方案的能力 [15] - 通过过滤训练数据,排除仅靠启发式规则就能解决的简单问题,迫使模型发展出真正的综合能力,从一个孤立的求解者转变为一个高效的协同者 [16] - 训练过程中,模型输出中“交叉检查”类词汇的频率稳步增加,表明模型学会了显式地引用同伴的消息,这种综合能力在未经训练的模型中几乎不存在 [25] 性能表现与数据有效性 - 在数学基准测试中,PaCoRe-8B在HMMT 2025上达到94.5%的得分,超越了GPT-5的93.2%,这是通过将有效测试时计算量扩展到每个问题约200万Token实现的 [23] - 在代码基准测试中,模型在LiveCodeBench上达到78.2%的得分,与GLM-4.6和Kimi-K2-Thinking等更大的前沿模型保持了竞争力 [23] - 为PaCoRe构建的训练语料库被证明是一种密度极高的学习资源,将其作为标准强化学习的主要基底也能带来稳健的性能提升 [26] 未来发展方向 - 计划将PaCoRe应用于更强大的基础模型,扩展任务领域,并进一步扩大并行轨迹和协同轮次,以攻克目前被认为无法解决的挑战 [30] - 目标从通过“量”来扩展,转向最大化每一个计算单元的效用,包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索 [30] - 有兴趣探索综合策略与消息传递机制的联合训练,构建协作多智能体学习环境,并利用PaCoRe流程开发先进的合成数据生成技术,以反哺并改进预训练和后训练过程 [31]
8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
机器之心·2025-12-14 10:49