一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」
微软微软(US:MSFT) 量子位·2026-02-17 11:58

文章核心观点 - 微软Bing Ads与DKI团队基于DeepSeek-R1 671B模型,打造了统一的离线推理中枢AdNanny,旨在用一个大型推理模型替代广告推荐系统中大量分散的专用小模型,实现从“模型森林”到“智能中枢化”的范式转移 [4] - AdNanny通过构建带有推理过程的高质量语料、采用多任务自适应训练与下游业务指标对齐,以及高效的混合并行工程架构,在提升多个核心离线任务性能的同时,大幅降低了系统复杂性和整体算力成本 [4][9][11][13][14][17] 范式转移:从“模型森林”到“智能中枢” - 工业级广告推荐系统为追求毫秒级响应,普遍在离线端堆积成百上千个专用小模型,形成“模型森林”,导致知识割裂、运维成本高昂、决策过程黑盒化 [3][4] - “一任务一模型”体系存在痛点:知识孤岛导致领域知识重复学习效率低;小模型面对长尾流量和复杂语义时易出现理解偏差,且黑盒决策难以溯源;每个模型需独立的数据管道、训练和部署体系,工程负担沉重 [6][7] - AdNanny的核心愿景是打造一个服务于整个离线生态的“全能推理大脑”,成为智能中枢,标志着从维护一系列任务特定模型转向部署一个统一的、推理中心化的基础模型 [4][8] 技术基石:数据、训练与工程创新 - 数据突破:团队构建三阶段自动化数据工厂,将数百万条广告数据转化为带有“思维链”的高质量语料,使模型从“记忆标签映射”转向“理解决策逻辑” [9] - 第一阶段:引入教师模型生成推理过程(如判断相关性时写出逻辑链)[9] - 第二阶段:利用人类专家标注的黄金集验证并剔除存在幻觉或逻辑断裂的样本 [9] - 第三阶段:采用拒绝采样,仅收录推理逻辑能准确导向正确标签的样本,确保学习正确的因果关系 [9] - 训练艺术:针对多任务数据量、难度、目标各异的问题,引入关键机制 [11] - 动态重加权:在实例级,对困惑度下降缓慢的样本增加训练权重;在任务级,根据验证集表现动态平衡采样比例,防止大数据量任务淹没高价值小任务 [11][12] - 强化学习对齐:在微调阶段引入强化学习,奖励函数直接以下游业务指标(如Recall@K、在线CTR预估值变化量)作为Reward,迫使模型推理对最终广告效果产生正向贡献 [13] - 工程重器:基于Megatron框架深度定制混合并行架构以驯服671B大模型 [14] - 采用31路流水线并行、8路专家并行、8路数据并行的混合方案,在248块GPU上实现负载均衡,并对频繁调用的“共享专家”采取全复制策略以减少通信瓶颈 [15] - 通过FP8量化推理,在保持高精度的前提下大幅压缩推理成本 [16] 性能与效益 - 性能全面超越:在Query-Ad相关性判断、Ad-User匹配、查询生成等多个核心离线任务上,AdNanny的表现均大幅超过此前微调过的专属模型 [18] - 成本显著下降:在Bing Ads实际测算中,AdNanny替代多个小模型后,整体离线算力成本下降了约50% [17] - 运营效率提升:模型具备推理能力后,大量模糊样本可由AdNanny提供可信的初审理由,人工只需对推理逻辑进行抽检,降低了人工标注需求 [18] - 系统架构极简:告别了数十套独立的数据模型Pipeline和监控体系,使系统变得清晰简洁、易于维护 [19] 影响与启示 - AdNanny的尝试基于对工业AI路径的深刻反思,其启发性在于面对复杂工业场景,最佳方案往往不是打更多补丁,而是追求更深邃的逻辑统一 [20] - 该模型被定位为整个离线系统的“灵魂引擎”,并非要取代在线推荐模型 [20] - “以一个推理大模型统一所有碎片化任务”的思路,预计将在广告领域之外,对搜索、电商乃至金融决策等领域产生广泛影响 [20]

一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」 - Reportify