X推荐算法系统
搜索文档
马斯克罕见低头:开源推荐算法,自嘲“很烂”不过未来月更
搜狐财经· 2026-01-21 12:30
核心观点 - 马斯克旗下的社交媒体平台(原Twitter)已将其核心的“For You”推荐算法系统完全开源,该系统几乎完全由AI模型驱动,摒弃了传统的人工规则和特征工程,旨在实现透明化并持续改进 [1][2][3][5][8][39] 算法系统架构与运作机制 - 系统基于Grok-1同款的Transformer架构打造,通过学习用户的历史互动行为(如点赞、回复、转发)来决定内容推荐 [10] - 推荐流程始于用户打开“For You”页面的客户端请求,系统首先构建实时用户画像 [11][13] - 用户画像数据分为两类:1) 行为序列,代表直接兴趣信号(如最近点赞、回复、转发、点击、停留);2) 属性,代表长期属性(如关注列表、兴趣主题、地理位置、设备) [17] - 系统从两个来源筛选候选推文:1) 通过“Thunder”模块抓取用户关注账号的最新推文(熟人圈);2) 通过“Phoenix Retrieval”核心检索模块抓取用户可能感兴趣但未关注账号的推文(外部) [16][18] - 筛选出的推文ID会通过“Hydration”模块补全信息(如全文、作者详情、媒体内容、历史互动数据),然后由“Filtering”模块过滤掉明显不合适的内容(如重复帖、用户自己发布的内容、来自拉黑/静音账号的内容、含屏蔽关键词的内容、已看过的内容) [20][21] - 剩余候选推文被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分,模型同时接收用户画像和候选推文信息,预测用户执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合成最终排序分数 [23][24] - 系统会进行工程调节,例如控制作者多样性以防止单一账号刷屏,并确保候选推文在评分时相互隔离(无交叉注意力机制) [23] - 所有候选推文按最终得分排序,选出Top-K条,在返回客户端前进行最后一轮安全校验,移除违规内容,最终按分数高低展示给用户 [26] 系统设计的关键原则 - 纯数据驱动,拒绝人工规则:彻底摒弃人工定义内容好坏的复杂规则,由AI模型直接从原始用户数据中学习 [28] - 采用候选隔离机制,独立评分:每条内容在打分时“看不见”其他候选内容,只能看到用户信息,确保分数一致且可高效缓存复用 [29] - 哈希嵌入,实现高效检索:在检索和排序阶段使用多个哈希函数进行向量嵌入查找以提高效率 [30] - 预测多元行为,而非单一分数:模型不直接输出模糊的“推荐值”,而是同时预测多种用户行为的概率 [31] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各组件可独立开发、测试和替换 [32] 开源影响与社区反应 - 开源消息引发社区热烈反响,被高度赞扬为其他平台未能做到的透明举措 [4] - 马斯克本人转发并低调承认算法“很蠢(dumb)”,需要大幅改进,但强调其透明度和持续改进的努力 [5][6] - 马斯克自2022年收购前就批评平台封闭,收购后多次兑现开源核心算法的承诺 [7][8] - 平台承诺未来将每4周重复一次开源更新,持续保持透明 [39] 算法存在的已知缺陷 - 有社区成员指出,算法代码显示“被大量用户屏蔽”是一个强负面信号,会导致账号被“降权”,但代码中缺乏针对“屏蔽”信号的时间衰减机制,这意味着历史上的屏蔽记录可能至今仍在影响账号的推荐分数 [34][35] - 马斯克本人在相关讨论下评论称“是的,这算法太烂了”,间接承认了该缺陷 [35]
马斯克罕见低头:开源𝕏推荐算法,自嘲“很烂”不过未来月更
量子位· 2026-01-21 12:09
算法开源事件与背景 - 马斯克旗下社交媒体平台(原Twitter)完整开源了其“For You”信息流的推荐算法系统 [1] - 开源文件表明,该系统是一个几乎完全由AI模型驱动的算法系统,移除了所有人工设计特征和绝大多数启发式规则 [2] - 马斯克本人转发了工程团队原帖,并低调表示该算法“很蠢(dumb)”,需要大幅改进,但强调其透明性,并指出其他社交媒体公司都没有这样做 [3][4][5] - 此举是马斯克自2022年收购该平台前多次批评其过于封闭后,兑现承诺的延续 [6][7] 纯AI驱动推荐系统的运作机制 - 系统基于Grok-1同款Transformer架构打造,通过学习用户的历史互动行为(点赞/回复/转发)来决定内容推荐 [9] - 流程始于用户打开“For You”标签,客户端向服务器发送请求 [10] - 系统首先构建“实时用户画像”,通过收集两类原始用户信息,而非人工构造特征 [12][13] - 行为序列:代表最直接、最强烈的兴趣信号,如最近点赞、回复、转发、点进、停留过什么 [14] - 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等 [14] - 系统采用“去人工化”和“端到端”方法,将原始数据直接喂给模型,让模型自行学习规律 [15] - 构建用户画像后,系统兵分两路,从海量推文中快速筛选出几千条“可能相关”的推文 [15] - 一路通过“Thunder”模块,抓取用户关注的所有人的最新推文(熟人圈) [16] - 另一路通过“Phoenix Retrieval”核心检索模块,抓取来自未关注账号但用户可能感兴趣的推文(外部) [17] - 两类来源的信息在后续阶段被统一对待 [19] - 系统通过“Hydration”模块补全候选推文ID的详细信息,包括推文全文、作者详情、媒体内容及历史互动数据 [21] - 在正式计算前,通过“Filtering”模块淘汰明显不需要的内容,如重复帖子、用户自己发布的内容、来自拉黑/静音账号的帖子等 [22] 核心排序模型与最终呈现 - 剩余内容被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分 [24] - 模型同时接收用户的行为序列与属性信息,以及单条候选帖子的内容与作者信息 [25][27] - 模型预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数 [25] - 系统设置了“候选隔离机制”,确保模型在评分时,每条候选帖子“看不见”其他候选帖子,分数一致且可高效缓存复用 [26][34] - 系统会进行少量工程调节,如控制作者多样性,防止单一账号刷屏 [26] - 所有候选帖子按最终得分排序,系统选出Top-K条帖子作为推荐结果 [29] - 返回客户端前,进行最后一轮安全校验,移除已删除、垃圾信息或违规内容 [30] - 经历重重筛选后的信息根据分数高低,依次展示给用户 [31] 系统成功运转的五大关键设计 - 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义复杂规则 [33] - 采用候选隔离机制,独立评分:确保每条帖子的分数不会因同批次其他帖子而变化,分数一致且可高效缓存复用 [34] - 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率 [35] - 预测多元行为,而非单一分数:AI模型对多种用户行为同时进行预测,而非输出模糊的“推荐值” [36] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各个组件可以独立开发、测试、替换 [37] 开源反响与未来计划 - 社区对开源行为表示赞赏,认为其透明性在行业中罕见 [2] - 有网友指出算法存在“缺陷”,例如代码显示“被大量用户屏蔽”是强负面信号,但缺乏针对该信号的时间衰减机制,可能导致历史屏蔽记录持续影响账号推荐分数 [39][40][41] - 马斯克本人在相关评论下承认“是的,这算法太烂了” [42] - 公司计划持续保持开源,未来每4周将重复一次开源更新 [44]