Workflow
告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求
量子位·2025-08-03 14:55

核心观点 - 当前AI对话普遍存在空话套话问题,用户需通过复杂提示词技巧与AI交互[2][5] - AlignXplore方法通过强化学习动态归纳用户偏好,实现从"规则执行者"到"模式发现者"的进化[7][8][11][12] - 该方法采用两阶段训练:冷启动阶段利用导师模型生成高质量教学案例,强化学习阶段通过GRPO算法优化推理路径[18][19][24] - 流式偏好推断机制实现实时增量更新用户理解,响应速度与准确率不受历史数据量影响[26][27][30] - 实验显示AlignXplore在个性化对齐任务上较基座模型DeepSeek-R1-Distill-Qwen-7B平均提升15.49%[28][29] 技术实现 归纳推理机制 - 通过用户行为碎片(追问内容、跳过回答、点赞等)自下而上构建个性化偏好模型[14] - 示例:用户连续两次交互(询问AI商业应用、选择冥想步骤回答)即被推断出"务实导向"偏好[20] - 动态更新机制使AI能持续修正用户画像,适应偏好变化[16][32] 训练架构 - 冷启动阶段公式:Dcold={(E,d^,ri,di)R(ri,di)=1,i[1,G]}\mathcal{D}_{\mathrm{cold}}=\{({\mathcal{E}},\hat{d},r_{i},d_{i})|R(r_{i},d_{i})=1,i\in[1,G]\} 筛选高质量候选样本[21] - 强化学习阶段采用两种奖励函数: 1. 基于偏好判断的奖励 Rjud=\mathbbm1(Rjud(ywx,d,yw,yl)>Rjud(ylx,d,yw,yl))RformatR_{\mathrm{jud}}=\mathbbm{1}\left(\mathcal{R}_{\mathrm{jud}}(y_{w}|x,d,y_{w},y_{l})>\mathcal{R}_{\mathrm{jud}}(y_{l}|x,d,y_{w},y_{l})\right)R_{\mathrm{format}} [23] 2. 基于生成概率的奖励 Rgen=1(logRgen(ywx,d)Rgen(ywx)>logRgen(ylx,d)Rgen(ylx))RformatR_{\mathrm{gen}}=\mathbb{1}\left(\log{\frac{\mathcal{R}_{\mathrm{gen}}(y_{w}|x,d)}{\mathcal{R}_{\mathrm{gen}}(y_{w}|x)}}>\log{\frac{\mathcal{R}_{\mathrm{gen}}(y_{l}|x,d)}{\mathcal{R}_{\mathrm{gen}}(y_{l}|x)}}\right)R_{\mathrm{format}} [23] 性能表现 基准测试 - 在AlignX_test和P-Soups测试集上: - AlignXplore-7B Streaming版本取得最佳效果(71.47/61.30/83.00/71.33分)[29] - 显著优于Qwen3-32Bnon-thinking(57.60/54.98/61.50/66.67分)等基线模型[29] - 泛化能力验证:推断偏好可迁移至QwQ-32B、DeepSeek-R1-671B等不同下游模型[31] 行业意义 - 突破"千人一面"对齐局限,示例显示用户A(技术细节需求)与用户B(简易解释需求)获得差异化响应[13] - 首次实现推理知识在用户理解领域的迁移应用,推动大模型情商规模化训练[37] - 为AI处理主观问题提供新范式,个性化被视为通往主观世界的重要通道[37]