ReMA框架 - 财报，业绩电话会，研报，新闻

ReMA框架

搜索文档

机器之心· 2025-07-03 11:26

大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架，通过多智能体强化学习实现大语言模型的"元思维"能力，即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构，通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中，ReMA平均性能优于基线方法，如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**：采用层级化多智能体系统(MAS)，相比单智能体方法(如DeepSeek R1)降低探索难度，避免动作空间过大问题 [8][12] - **训练机制**： - 单轮场景使用GRPO和REINFORCE++算法优化，奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术，提升训练稳定性 [20][22][23] - **数据生成**：从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**： - Llama3-8B在7个数学基准平均提升6.68%，Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著，如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**： - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE)，小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍，轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性，测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501)，代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型，测试覆盖MATH、GSM8K等12个基准数据集 [27][28]

多智能体强化学习

大模型元思考

元思维

Artificial Intelligence

Artificial Intelligence

ReMA框架

Llama3