核心观点 - 蚂蚁通用人工智能研究中心提出AlignXplore方法,通过强化学习实现AI对用户偏好的动态归纳与更新,显著提升个性化对齐能力 [7][9][11] - 该方法使AI从"规则执行者"进化为"模式发现者",核心在于掌握归纳推理能力,从碎片化行为数据中提炼用户互动模式 [9][11] - 相比传统演绎推理,归纳推理采用自下而上方式,无需预设规则,通过持续交互精修用户画像 [11][13] 技术实现 训练机制 - 分两阶段训练:冷启动阶段引入导师模型生成高质量教学案例,通过奖励函数筛选数据 [14] - 强化学习阶段采用GRPO算法,生成多组推理路径并根据准确性进行奖励/惩罚优化 [15] - 奖励函数设计包含两种实例化形式:基于偏好判断的奖励(核心)和基于生成概率的奖励 [14] 流式偏好推断 - 支持实时增量更新用户理解,无需回看冗长历史记录,响应效率提升30% [16][18] - 动态适应偏好变化,如用户从休闲切换到工作状态时可快速迭代新偏好 [16] 性能表现 基准测试 - 在域内测试集AlignX_test和域外测试集P-Soups上,个性化对齐能力平均提升15.49% [17] - 流式推理机制下,AlignXplore-7B模型在Informative、Style、Expertise指标分别达71.47、61.30、83.00分,超越基座模型DeepSeek-R1-Distill-Qwen-7B [18] 系统优势 - 高效性:流式机制保障长互动历史下的稳定响应速度,传统方法延迟降低40% [18][20] - 泛化能力:可从UGC等多形式内容学习,偏好推断可迁移至QwQ-32B等不同下游模型 [20] - 鲁棒性:对偏好反转等变化具备灵活适应能力,效果波动幅度小于5% [21][23] 行业意义 - 首次实现推理知识在用户理解领域的迁移应用,推动大模型从智力向情商维度拓展 [23] - 为AI解决主观问题提供新路径,个性化技术或成主观世界探索的关键突破口 [23]
告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求
搜狐财经·2025-08-03 17:44