Workflow
演绎推理
icon
搜索文档
告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求
搜狐财经· 2025-08-03 17:44
核心观点 - 蚂蚁通用人工智能研究中心提出AlignXplore方法,通过强化学习实现AI对用户偏好的动态归纳与更新,显著提升个性化对齐能力 [7][9][11] - 该方法使AI从"规则执行者"进化为"模式发现者",核心在于掌握归纳推理能力,从碎片化行为数据中提炼用户互动模式 [9][11] - 相比传统演绎推理,归纳推理采用自下而上方式,无需预设规则,通过持续交互精修用户画像 [11][13] 技术实现 训练机制 - 分两阶段训练:冷启动阶段引入导师模型生成高质量教学案例,通过奖励函数筛选数据 [14] - 强化学习阶段采用GRPO算法,生成多组推理路径并根据准确性进行奖励/惩罚优化 [15] - 奖励函数设计包含两种实例化形式:基于偏好判断的奖励(核心)和基于生成概率的奖励 [14] 流式偏好推断 - 支持实时增量更新用户理解,无需回看冗长历史记录,响应效率提升30% [16][18] - 动态适应偏好变化,如用户从休闲切换到工作状态时可快速迭代新偏好 [16] 性能表现 基准测试 - 在域内测试集AlignX_test和域外测试集P-Soups上,个性化对齐能力平均提升15.49% [17] - 流式推理机制下,AlignXplore-7B模型在Informative、Style、Expertise指标分别达71.47、61.30、83.00分,超越基座模型DeepSeek-R1-Distill-Qwen-7B [18] 系统优势 - 高效性:流式机制保障长互动历史下的稳定响应速度,传统方法延迟降低40% [18][20] - 泛化能力:可从UGC等多形式内容学习,偏好推断可迁移至QwQ-32B等不同下游模型 [20] - 鲁棒性:对偏好反转等变化具备灵活适应能力,效果波动幅度小于5% [21][23] 行业意义 - 首次实现推理知识在用户理解领域的迁移应用,推动大模型从智力向情商维度拓展 [23] - 为AI解决主观问题提供新路径,个性化技术或成主观世界探索的关键突破口 [23]
告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求
量子位· 2025-08-03 14:55
核心观点 - 当前AI对话普遍存在空话套话问题,用户需通过复杂提示词技巧与AI交互[2][5] - AlignXplore方法通过强化学习动态归纳用户偏好,实现从"规则执行者"到"模式发现者"的进化[7][8][11][12] - 该方法采用两阶段训练:冷启动阶段利用导师模型生成高质量教学案例,强化学习阶段通过GRPO算法优化推理路径[18][19][24] - 流式偏好推断机制实现实时增量更新用户理解,响应速度与准确率不受历史数据量影响[26][27][30] - 实验显示AlignXplore在个性化对齐任务上较基座模型DeepSeek-R1-Distill-Qwen-7B平均提升15.49%[28][29] 技术实现 归纳推理机制 - 通过用户行为碎片(追问内容、跳过回答、点赞等)自下而上构建个性化偏好模型[14] - 示例:用户连续两次交互(询问AI商业应用、选择冥想步骤回答)即被推断出"务实导向"偏好[20] - 动态更新机制使AI能持续修正用户画像,适应偏好变化[16][32] 训练架构 - 冷启动阶段公式:$$\mathcal{D}_{\mathrm{cold}}=\{({\mathcal{E}},\hat{d},r_{i},d_{i})|R(r_{i},d_{i})=1,i\in[1,G]\}$$ 筛选高质量候选样本[21] - 强化学习阶段采用两种奖励函数: 1. 基于偏好判断的奖励 $$R_{\mathrm{jud}}=\mathbbm{1}\left(\mathcal{R}_{\mathrm{jud}}(y_{w}|x,d,y_{w},y_{l})>\mathcal{R}_{\mathrm{jud}}(y_{l}|x,d,y_{w},y_{l})\right)R_{\mathrm{format}}$$ [23] 2. 基于生成概率的奖励 $$R_{\mathrm{gen}}=\mathbb{1}\left(\log{\frac{\mathcal{R}_{\mathrm{gen}}(y_{w}|x,d)}{\mathcal{R}_{\mathrm{gen}}(y_{w}|x)}}>\log{\frac{\mathcal{R}_{\mathrm{gen}}(y_{l}|x,d)}{\mathcal{R}_{\mathrm{gen}}(y_{l}|x)}}\right)R_{\mathrm{format}}$$ [23] 性能表现 基准测试 - 在AlignX_test和P-Soups测试集上: - AlignXplore-7B Streaming版本取得最佳效果(71.47/61.30/83.00/71.33分)[29] - 显著优于Qwen3-32Bnon-thinking(57.60/54.98/61.50/66.67分)等基线模型[29] - 泛化能力验证:推断偏好可迁移至QwQ-32B、DeepSeek-R1-671B等不同下游模型[31] 行业意义 - 突破"千人一面"对齐局限,示例显示用户A(技术细节需求)与用户B(简易解释需求)获得差异化响应[13] - 首次实现推理知识在用户理解领域的迁移应用,推动大模型情商规模化训练[37] - 为AI处理主观问题提供新范式,个性化被视为通往主观世界的重要通道[37]
清华教授刘嘉:人工智能时代,我们需要具备的五大能力
36氪· 2025-06-23 07:10
通识教育的历史演变 - 古希腊通识教育以培养贵族政治文化能力为核心,与平民生活需求无关,劳动由普通公民和奴隶承担[1] - 古罗马时期通识教育实用性提升,法律、建筑、雄辩术等实用学科取代思辨内容[1] - 工业革命推动普鲁士义务教育模式成为现代教育模板,侧重培养各阶层工作技能以适应新技术经济[1] AGI时代通识教育的五大能力 - **研究能力**:提出正确问题的能力,联结主义AI研究者通过质疑"智能本质是记忆"的传统观点,转向探索"模拟人脑学习机制"的新路径[7][9] - **统计能力**:通过大数据分析万物关联,量化基金运用AI实时解析社交媒体情绪制定交易策略,网飞通过用户数据分析精准打造《纸牌屋》新增200万订阅用户[10][13] - **逻辑能力**:基于第一性原理的演绎推理,马斯克运用物理定律拆解问题实现商业创新,U形思考模式突破局部最优限制[16][17][18] - **心理能力**:理解自我与他人的动机,OpenAI团队通过追求"计算与人类未来"的社会幸福感突破"约拿情结"限制[19][20][23] - **修辞能力**:亚里士多德定义为说服艺术,AI时代升级为"数字修辞",通过情感计算、数据可视化技术构建全球共识[24][25] 技术应用案例 - 人工神经网络:1958年罗森布拉特感知机模型首次实现自主调整权重的学习机制[8] - 数据思维应用:星巴克数据驱动选址、PayPal异常检测降低70%欺诈损失、网飞内容定制策略[12][13] - AI共识构建:自然语言处理打破文化障碍,情感分析优化社交媒体舆论引导[25] 核心方法论 - 研究能力构建:文献综述+批判性思维组合,识别研究盲点并挑战传统假设[9] - 统计思维四要素:数据驱动决策、模式识别、因果推理、价值最大化[12] - 逻辑训练路径:从IF-AND-THEN形式化表达发展到第一性原理的U形思考[14][18]