一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」
微软微软(HK:04338) 搜狐财经·2026-02-18 13:37

文章核心观点 - 微软Bing Ads与DKI团队提出了一种名为AdNanny的广告推荐系统新范式,旨在用一个统一的、基于671B参数大语言模型(DeepSeek-R1)的“推理中枢”,替代当前工业界普遍采用的、由成百上千个独立小模型组成的“模型森林”体系 [3] - 这一转变旨在解决现有“模型森林”范式带来的知识割裂、运维成本高昂和决策过程黑盒化等问题,并通过集中化的智能中枢实现更高性能、更低成本和更易维护的广告离线任务处理 [3][4] 范式与架构转变 - 行业正从为每个离线子任务(如相关性标注、用户画像生成)训练和维护独立小模型(“模型森林”)的范式,转向部署一个统一的、推理中心化的基础模型(“智能中枢”)[3][4] - “模型森林”范式存在知识孤岛、性能瓶颈(小模型对复杂语义理解偏差)和维护成本高企(每个模型需独立的数据管道、训练和监控体系)等痛点 [4] - AdNanny的核心愿景是打造一个服务于整个广告离线生态的“全能推理大脑”,而不仅是某个子任务的工具 [4] 数据与训练方法创新 - 团队构建了一个三阶段的自动化数据工厂,将数百万条广告数据转化为带有显性推理过程的高质量语料,旨在让模型学习决策逻辑而非简单的标签映射 [5] - 第一阶段:引入教师模型为广告样本生成“思维链”(CoT)[5] - 第二阶段:利用人类专家标注的黄金数据集验证并剔除存在“幻觉”或逻辑错误的推理路径 [5] - 第三阶段:通过拒绝采样,仅收录推理逻辑能准确导向正确标签的样本,确保模型学习正确的因果关系 [5] - 训练采用了多任务自适应策略,通过动态重加权机制解决不同任务数据量差异大和样本难度不均的问题 [7] - 实例级:对模型理解尚浅(困惑度下降缓慢)的样本自动增加训练权重 [7] - 任务级:根据各任务在验证集的表现动态平衡采样比例,防止大数据量任务淹没高价值小任务 [7] - 在微调阶段引入强化学习,直接以下游业务指标(如Recall@K、在线CTR预估变化量)作为奖励函数,迫使模型生成的推理和特征对最终广告效果产生正向贡献 [8] 工程实现与性能 - 基于671B参数的DeepSeek-R1模型打造AdNanny [3] - 采用深度定制的混合并行训练架构,在248块GPU上实现了31路流水线并行、8路专家并行和8路数据并行,并对频繁调用的“共享专家”采取全复制策略以减少通信瓶颈 [9][10] - 通过FP8量化推理,在保持高精度的同时大幅压缩了推理成本 [11] - 在Bing Ads的实际测算中,AdNanny替代多个小模型后,整体离线算力成本下降了约50% [11] 应用效果与价值 - 在Query-Ad相关性判断、Ad-User匹配、查询生成等多个核心离线任务上,AdNanny的表现均大幅超过了此前微调过的专属小模型 [12] - 由于模型具备推理能力,可为大量模糊样本提供可信的初审理由,从而大幅减少了需要人工标注的工作量,人工只需对推理逻辑进行抽检 [12] - 系统架构变得极简,告别了数十套独立的数据模型Pipeline和监控体系,使得系统更清晰、易维护 [13]

一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」 - Reportify