Workflow
Multi-model collaborative routing
icon
搜索文档
首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」
机器之心· 2025-10-15 18:44
研究背景与问题定义 - 在大语言模型种类爆炸的背景下,AI系统设计面临性能、延迟与成本的多重平衡挑战,如何智能地在不同LLM之间分配任务成为AI基础设施的新挑战[3] - 当前AI应用大多依赖单一模型推理,导致简单问题算力浪费,复杂问题可能因模型能力不足而回答错误[6] - 现有LLM Router大多采用单轮决策机制,难以处理多跳推理或跨领域的复杂任务[6] Router-R1核心创新 - 提出了首个多轮LLM Router框架Router-R1,其核心创新在于让Router自身成为一个具备推理能力的Policy LLM[7][8] - Router-R1不再是简单的"Query分发器",而是一个拥有思维链,能主动进行"思考—选择模型—聚合"的智能体[8] - 通过"思考–路由–聚合"的交替机制,Router-R1能充分利用不同LLM的互补优势,实现真正的多模型协同推理[8] 技术方法与训练机制 - 将多轮路由过程形式化为序列决策问题,并通过强化学习训练Router优化性能与成本的权衡[10] - 设计了三类奖励函数:Format Reward确保输出格式正确性[10]、Final Outcome Reward采用Exact Match指标激励正确结果[11]、Cost Reward创新引入计算成本奖励机制[14] - Cost Reward根据被调用模型的参数规模及输出Token数设计反比例奖励函数,实现可控且动态的成本感知路由[14][15] - 总奖励函数为α(x,y)= Rformat + (1-α)Routcome + αRcost,超参α控制性能与成本的权衡程度[16][17] 实验性能与结果 - 在7个QA Benchmark上进行系统评测,涵盖单跳与多跳推理任务,包括NQ、TriviaQA等数据集[19] - 当α=0时,Router-R1在所有数据集上达到综合最强性能,击败GraphRouter/RouterDC等单轮路由方法[21] - Router-R1展现出对Unseen Dataset的较强泛化性,仅在NQ与HotpotQA上训练,在其他数据集执行Out-of-domain Evaluation[19][21] - 随着超参α增加,调用成本显著下降,为可控成本的LLM智能调度策略开辟新范式[23] - 在未参与训练的外部模型加入后,无需重新训练即可保证性能相对稳定并实现提升,显示优异的零样本迁移能力[24] 行业意义与发展趋势 - Router-R1代表让多个模型协同工作的新范式,使LLM从"单一回答者"进化为"多智能体协调者"[26] - 该技术能在减少算力和成本开销的同时保持高质量输出,降低大模型部署的环境与资源压力[26] - Router-R1天然支持模型重用与模块化组合,只需添加新模型描述即可快速集成,为构建可扩展、多模型共生的AI基础设施奠定基础[26] - GPT-5技术报告已采用LLM Router机制进行不同版本模型的动态调度,印证多模型协同路由将成为未来大模型生态不可或缺的底层基础设施[26]