行为模拟 - 财报，业绩电话会，研报，新闻

行为模拟

搜索文档

ICLR 2026 | Shop-R1: 给AI补上「内心戏」，在RL博弈中复刻人类网购脑

机器之心· 2026-03-21 09:09

文章核心观点 - 亚马逊研究团队提出Shop-R1训练框架，旨在实现电商AI智能体从传统的“任务导向”向“模拟导向”的范式转移，即从单纯完成购物指令转变为复刻真实人类的复杂决策过程[2][5] - Shop-R1通过结合监督微调与创新的多层级奖励强化学习，显著提升了AI在动态、嘈杂的在线购物环境中预测用户下一步操作（包括点击、输入、终止）的准确性，其核心价值在于为电商平台提供一个低成本、高保真的“虚拟A/B测试”环境[5][9][28] 技术框架与训练方法 - **双阶段训练范式**：首先通过监督微调实现行为基准的“冷启动”，帮助模型内化上下文、推理与动作间的结构性依赖；随后在强化学习阶段，利用多层级奖励机制驱动深度迭代，提升在复杂环境下的逻辑推理与泛化表现[9][12] - **多层级奖励机制**：将每一步决策拆分为推理生成和动作预测两个子任务，并设计专门的奖励函数[13] - **二值格式奖励**：鼓励模型以结构化的JSON格式输出，确保可解析性[14] - **推理奖励**：采用self-certainty score（基于KL散度）衡量模型对其生成推理的置信程度[15] - **层级式动作奖励**：对粗粒度的动作类型和细粒度的子动作分别给予奖励，以稳定训练并抑制奖励黑客行为，例如“click”和“type_and_submit”动作在类型正确后可因预测正确的子组件（如按钮名称、输入文本）获得额外奖励，而简单的“terminate”动作则没有子动作奖励[16][17] - **难度感知奖励缩放因子**：对预测难度较高的长文本子动作（如从数千个候选元素中识别按钮名称）给予放大的奖励，防止模型为获取容易的奖励而不断选择简单动作[18] - **评估标准**：对离散动作类型使用完全匹配，对自由文本形式的子动作使用ROUGE-L相似度评估，超过阈值（如0.75）时给予软奖励[19] 实验结果 - **基准模型表现**：直接使用zero-shot提示的Qwen-2.5-3B-Instruct模型，其精确动作准确率仅为0.32%，表明长序列网页行为无法仅靠通用指令能力恢复[22][23] - **训练方法对比**： - 仅使用稀疏二值奖励的强化学习从零训练效果有限，精确动作准确率仅1.01%[22][23] - 一轮监督微调可显著提升性能，将Qwen-2.5-3B-Instruct的精确动作准确率提升至16.76%[22][23] - 在SFT基础上仅使用二值奖励进行强化学习提升有限（16.55%）[22][23] - **Shop-R1最终效果**：结合了层级奖励、self-certainty信号、格式奖励及难度感知奖励缩放的Shop-R1框架，将Qwen-2.5-3B-Instruct的精确动作准确率提升至27.72%，相对于仅使用SFT提升了65%，同时动作类型准确率提升至36.40%[22][23] - **模型规模扩展性**：该框架在不同参数规模的模型上（如1.5B和0.5B）均表现出显著性能提升[23] 未来发展方向 - **感官增强**：计划引入视觉语言模型，使AI能捕捉图片、买家秀等非文本信息中蕴含的隐含情绪，弥补当前高度依赖HTML代码的局限[25] - **个性化模拟**：构想通过调整强化学习的奖励权重，赋予AI不同的消费画像，例如“极致性价比党”、“精致参数控”、“颜值正义者”，以复刻真实世界中“千人千面”的消费心理[26][32] 行业应用与价值 - **虚拟A/B测试环境**：Shop-R1这类模拟导向智能体可作为低成本、高保真的“购物模拟器”，使电商平台能在实验室环境中投喂数万个“AI购物者”，测试新推荐算法或页面布局，观察其在面对价格波动、界面改版时的实时反馈，从而优化运营策略[28]