Workflow
ReSo框架
icon
搜索文档
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。通讯作者为上海人工智能实验 室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。 ReSo 框架( Re ward-driven & S elf- o rganizing)为复杂推理任务中的多智能体系统(MAS)提供了全新解法,在处理复杂任务时,先分解生成任务图,再为每个 子任务匹配最佳 agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合,该方法不仅提升了多智能体协作的效率,还为增强多智能体的推理能力开辟了 新路径。 研究背景:LLM 推理能力的掣肘与突破口 近年来, 增加推理时间(Inference Time Scaling) 被广泛认为是提升大语言模型(Large Language Models, LLMs)推理能力的重要途径之一。一方面,通过在训 练后阶段引入强化学习与奖励模型,可优化单一模型的推理路径,使其在回答前生成中间步骤,表现出更强的逻辑链构建能力;另一方面,也有研究尝试构建 多 智能体 ...