Workflow
InstructRAG
icon
搜索文档
SIGIR 2025 | 解决扩展和迁移难题,华为新加坡提出InstructRAG,提升高达19%
机器之心· 2025-05-23 14:49
大语言模型任务规划技术 - 核心观点:InstructRAG框架通过多智能体协同的元强化学习架构,解决大模型任务规划中的可扩展性与可迁移性挑战,在跨领域复杂任务中性能提升19.2%且抗噪声能力突出[2][16][30] 技术架构 - **指令图(Instruction Graph)**:用有向图组织历史指令路径,通过近似最近邻搜索动态扩展节点,支持组合新指令解决未知问题[6] - **强化学习智能体(RL-Agent)**:将节点选择建模为马尔可夫决策过程,基于策略梯度优化路径检索,状态设计采用余弦相似度[7][8] - **元学习智能体(ML-Agent)**:通过两阶段训练(预训练QPA/QPM任务+微调)提升少样本迁移能力,采用共享自注意力编码器[9][10][11] 实验性能 - **跨任务表现**:在HotpotQA/ALFWorld/Webshop任务中,InstructRAG较最佳基线RAP分别提升19.2%/9.3%/6.1%,DeepSeek-V2 backbone下ALFWorld成功率达81.34%[22] - **抗噪声能力**:50%噪声干扰时性能仅衰减11.1%,显著优于RAP的27.2%衰减[25] - **消融实验**:移除任一组件(如指令图/RL-Agent/ML-Agent)均导致HotpotQA的F1下降2.3-4.3分[26][27] 应用场景 - 已验证多跳推理(HotpotQA)、具身决策(ALFWorld)、在线购物(Webshop)和科学问答(ScienceWorld)四类场景,跨数据集泛化时ScienceWorld任务得分提升1.8-2.6分[21][23] 开发团队 - 华为2012中央软件院新加坡团队主导,聚焦大模型基础软件技术,覆盖RAG/AI Agent/多模态等前沿领域[32]