行为模拟
搜索文档
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑
机器之心· 2026-03-21 09:09
文章核心观点 - 亚马逊研究团队提出Shop-R1训练框架,旨在实现电商AI智能体从传统的“任务导向”向“模拟导向”的范式转移,即从单纯完成购物指令转变为复刻真实人类的复杂决策过程[2][5] - Shop-R1通过结合监督微调与创新的多层级奖励强化学习,显著提升了AI在动态、嘈杂的在线购物环境中预测用户下一步操作(包括点击、输入、终止)的准确性,其核心价值在于为电商平台提供一个低成本、高保真的“虚拟A/B测试”环境[5][9][28] 技术框架与训练方法 - **双阶段训练范式**:首先通过监督微调实现行为基准的“冷启动”,帮助模型内化上下文、推理与动作间的结构性依赖;随后在强化学习阶段,利用多层级奖励机制驱动深度迭代,提升在复杂环境下的逻辑推理与泛化表现[9][12] - **多层级奖励机制**:将每一步决策拆分为推理生成和动作预测两个子任务,并设计专门的奖励函数[13] - **二值格式奖励**:鼓励模型以结构化的JSON格式输出,确保可解析性[14] - **推理奖励**:采用self-certainty score(基于KL散度)衡量模型对其生成推理的置信程度[15] - **层级式动作奖励**:对粗粒度的动作类型和细粒度的子动作分别给予奖励,以稳定训练并抑制奖励黑客行为,例如“click”和“type_and_submit”动作在类型正确后可因预测正确的子组件(如按钮名称、输入文本)获得额外奖励,而简单的“terminate”动作则没有子动作奖励[16][17] - **难度感知奖励缩放因子**:对预测难度较高的长文本子动作(如从数千个候选元素中识别按钮名称)给予放大的奖励,防止模型为获取容易的奖励而不断选择简单动作[18] - **评估标准**:对离散动作类型使用完全匹配,对自由文本形式的子动作使用ROUGE-L相似度评估,超过阈值(如0.75)时给予软奖励[19] 实验结果 - **基准模型表现**:直接使用zero-shot提示的Qwen-2.5-3B-Instruct模型,其精确动作准确率仅为0.32%,表明长序列网页行为无法仅靠通用指令能力恢复[22][23] - **训练方法对比**: - 仅使用稀疏二值奖励的强化学习从零训练效果有限,精确动作准确率仅1.01%[22][23] - 一轮监督微调可显著提升性能,将Qwen-2.5-3B-Instruct的精确动作准确率提升至16.76%[22][23] - 在SFT基础上仅使用二值奖励进行强化学习提升有限(16.55%)[22][23] - **Shop-R1最终效果**:结合了层级奖励、self-certainty信号、格式奖励及难度感知奖励缩放的Shop-R1框架,将Qwen-2.5-3B-Instruct的精确动作准确率提升至27.72%,相对于仅使用SFT提升了65%,同时动作类型准确率提升至36.40%[22][23] - **模型规模扩展性**:该框架在不同参数规模的模型上(如1.5B和0.5B)均表现出显著性能提升[23] 未来发展方向 - **感官增强**:计划引入视觉语言模型,使AI能捕捉图片、买家秀等非文本信息中蕴含的隐含情绪,弥补当前高度依赖HTML代码的局限[25] - **个性化模拟**:构想通过调整强化学习的奖励权重,赋予AI不同的消费画像,例如“极致性价比党”、“精致参数控”、“颜值正义者”,以复刻真实世界中“千人千面”的消费心理[26][32] 行业应用与价值 - **虚拟A/B测试环境**:Shop-R1这类模拟导向智能体可作为低成本、高保真的“购物模拟器”,使电商平台能在实验室环境中投喂数万个“AI购物者”,测试新推荐算法或页面布局,观察其在面对价格波动、界面改版时的实时反馈,从而优化运营策略[28]