交互式强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

交互式强化学习

搜索文档

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位· 2025-07-20 10:49

移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励（SFT或RL），难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败，显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架，整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程：格式微调（SFT）、动作级训练（GRPO）、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集，覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证（边界框匹配）和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性，格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动，增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%，较最佳基线（AgentCPM-8B的30%）提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版，动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果，最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性，泛化能力优于基准模型[29][32]

交互式强化学习

马尔可夫决策过程

交互式强化学习

马尔可夫决策过程