意图识别 - 财报，业绩电话会，研报，新闻

意图识别

搜索文档

机器之心· 2025-05-16 12:39

核心观点 - 大模型（LLMs）的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展，但工具多样化和复杂化导致意图识别面临新挑战，尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习（RL）结合分组相对策略优化（GRPO）算法和基于奖励的课程采样（RCS），显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调（SFT），推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%（TODAssistant数据集从41.6%至89.1%）[17][18] - 引入"思考"（Thought）机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励（$R_{format}$）和准确率奖励（$R_{answer}$）双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练：第一阶段全数据训练至收敛，第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳，在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式：$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证数据集与基准 - 使用TODAssistant（中文）和MultiWOZ2.2（英文）数据集，基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中，英文训练后中文识别准确率达65.2%，远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中，GRPO对缺失类别的平均识别准确率（91.8%）比SFT（76.9%）高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%，打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景，未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]

意图识别

强化学习

泛化能力

Artificial Intelligence

Artificial Intelligence

AI智能助手