算法开源事件与背景 - 马斯克旗下社交媒体平台(原Twitter)完整开源了其“For You”信息流的推荐算法系统 [1] - 开源文件表明,该系统是一个几乎完全由AI模型驱动的算法系统,移除了所有人工设计特征和绝大多数启发式规则 [2] - 马斯克本人转发了工程团队原帖,并低调表示该算法“很蠢(dumb)”,需要大幅改进,但强调其透明性,并指出其他社交媒体公司都没有这样做 [3][4][5] - 此举是马斯克自2022年收购该平台前多次批评其过于封闭后,兑现承诺的延续 [6][7] 纯AI驱动推荐系统的运作机制 - 系统基于Grok-1同款Transformer架构打造,通过学习用户的历史互动行为(点赞/回复/转发)来决定内容推荐 [9] - 流程始于用户打开“For You”标签,客户端向服务器发送请求 [10] - 系统首先构建“实时用户画像”,通过收集两类原始用户信息,而非人工构造特征 [12][13] - 行为序列:代表最直接、最强烈的兴趣信号,如最近点赞、回复、转发、点进、停留过什么 [14] - 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等 [14] - 系统采用“去人工化”和“端到端”方法,将原始数据直接喂给模型,让模型自行学习规律 [15] - 构建用户画像后,系统兵分两路,从海量推文中快速筛选出几千条“可能相关”的推文 [15] - 一路通过“Thunder”模块,抓取用户关注的所有人的最新推文(熟人圈) [16] - 另一路通过“Phoenix Retrieval”核心检索模块,抓取来自未关注账号但用户可能感兴趣的推文(外部) [17] - 两类来源的信息在后续阶段被统一对待 [19] - 系统通过“Hydration”模块补全候选推文ID的详细信息,包括推文全文、作者详情、媒体内容及历史互动数据 [21] - 在正式计算前,通过“Filtering”模块淘汰明显不需要的内容,如重复帖子、用户自己发布的内容、来自拉黑/静音账号的帖子等 [22] 核心排序模型与最终呈现 - 剩余内容被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分 [24] - 模型同时接收用户的行为序列与属性信息,以及单条候选帖子的内容与作者信息 [25][27] - 模型预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数 [25] - 系统设置了“候选隔离机制”,确保模型在评分时,每条候选帖子“看不见”其他候选帖子,分数一致且可高效缓存复用 [26][34] - 系统会进行少量工程调节,如控制作者多样性,防止单一账号刷屏 [26] - 所有候选帖子按最终得分排序,系统选出Top-K条帖子作为推荐结果 [29] - 返回客户端前,进行最后一轮安全校验,移除已删除、垃圾信息或违规内容 [30] - 经历重重筛选后的信息根据分数高低,依次展示给用户 [31] 系统成功运转的五大关键设计 - 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义复杂规则 [33] - 采用候选隔离机制,独立评分:确保每条帖子的分数不会因同批次其他帖子而变化,分数一致且可高效缓存复用 [34] - 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率 [35] - 预测多元行为,而非单一分数:AI模型对多种用户行为同时进行预测,而非输出模糊的“推荐值” [36] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各个组件可以独立开发、测试、替换 [37] 开源反响与未来计划 - 社区对开源行为表示赞赏,认为其透明性在行业中罕见 [2] - 有网友指出算法存在“缺陷”,例如代码显示“被大量用户屏蔽”是强负面信号,但缺乏针对该信号的时间衰减机制,可能导致历史屏蔽记录持续影响账号推荐分数 [39][40][41] - 马斯克本人在相关评论下承认“是的,这算法太烂了” [42] - 公司计划持续保持开源,未来每4周将重复一次开源更新 [44]
马斯克罕见低头:开源𝕏推荐算法,自嘲“很烂”不过未来月更
量子位·2026-01-21 12:09