协同奖励模型（CRM） - 财报，业绩电话会，研报，新闻 - Reportify

协同奖励模型（CRM）

搜索文档

基于奖励驱动和自组织演化机制，全新框架ReSo重塑复杂推理任务中的智能协作

机器之心· 2025-04-27 18:40

研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径，包括引入强化学习与奖励模型优化单一模型的推理路径，以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性，但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo，能够自主适应复杂任务和灵活数量的智能体候选，无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM)，提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法，将复杂问题分解为有向无环任务图(DAG)，再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成：使用大语言模型将复杂问题转化为分步骤的有向无环任务图，测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择：粗粒度搜索采用UCB算法筛选候选智能体，细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本，用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%，显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法，如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比，ReSo在保持较高准确率的同时，展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据，包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集，单个样本包含多学科任务，复杂度分为3、5、7三个级别 [32]

多智能体系统（MAS）

大语言模型（LLMs）

协同奖励模型（CRM）

动态智能体数据库（DADB）

多智能体系统（MAS）

大语言模型（LLMs）

协同奖励模型（CRM）

动态智能体数据库（DADB）