AI模型驱动
搜索文档
马斯克罕见低头:开源推荐算法,自嘲“很烂”不过未来月更
搜狐财经· 2026-01-21 12:30
核心观点 - 马斯克旗下的社交媒体平台(原Twitter)已将其核心的“For You”推荐算法系统完全开源,该系统几乎完全由AI模型驱动,摒弃了传统的人工规则和特征工程,旨在实现透明化并持续改进 [1][2][3][5][8][39] 算法系统架构与运作机制 - 系统基于Grok-1同款的Transformer架构打造,通过学习用户的历史互动行为(如点赞、回复、转发)来决定内容推荐 [10] - 推荐流程始于用户打开“For You”页面的客户端请求,系统首先构建实时用户画像 [11][13] - 用户画像数据分为两类:1) 行为序列,代表直接兴趣信号(如最近点赞、回复、转发、点击、停留);2) 属性,代表长期属性(如关注列表、兴趣主题、地理位置、设备) [17] - 系统从两个来源筛选候选推文:1) 通过“Thunder”模块抓取用户关注账号的最新推文(熟人圈);2) 通过“Phoenix Retrieval”核心检索模块抓取用户可能感兴趣但未关注账号的推文(外部) [16][18] - 筛选出的推文ID会通过“Hydration”模块补全信息(如全文、作者详情、媒体内容、历史互动数据),然后由“Filtering”模块过滤掉明显不合适的内容(如重复帖、用户自己发布的内容、来自拉黑/静音账号的内容、含屏蔽关键词的内容、已看过的内容) [20][21] - 剩余候选推文被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分,模型同时接收用户画像和候选推文信息,预测用户执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合成最终排序分数 [23][24] - 系统会进行工程调节,例如控制作者多样性以防止单一账号刷屏,并确保候选推文在评分时相互隔离(无交叉注意力机制) [23] - 所有候选推文按最终得分排序,选出Top-K条,在返回客户端前进行最后一轮安全校验,移除违规内容,最终按分数高低展示给用户 [26] 系统设计的关键原则 - 纯数据驱动,拒绝人工规则:彻底摒弃人工定义内容好坏的复杂规则,由AI模型直接从原始用户数据中学习 [28] - 采用候选隔离机制,独立评分:每条内容在打分时“看不见”其他候选内容,只能看到用户信息,确保分数一致且可高效缓存复用 [29] - 哈希嵌入,实现高效检索:在检索和排序阶段使用多个哈希函数进行向量嵌入查找以提高效率 [30] - 预测多元行为,而非单一分数:模型不直接输出模糊的“推荐值”,而是同时预测多种用户行为的概率 [31] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各组件可独立开发、测试和替换 [32] 开源影响与社区反应 - 开源消息引发社区热烈反响,被高度赞扬为其他平台未能做到的透明举措 [4] - 马斯克本人转发并低调承认算法“很蠢(dumb)”,需要大幅改进,但强调其透明度和持续改进的努力 [5][6] - 马斯克自2022年收购前就批评平台封闭,收购后多次兑现开源核心算法的承诺 [7][8] - 平台承诺未来将每4周重复一次开源更新,持续保持透明 [39] 算法存在的已知缺陷 - 有社区成员指出,算法代码显示“被大量用户屏蔽”是一个强负面信号,会导致账号被“降权”,但代码中缺乏针对“屏蔽”信号的时间衰减机制,这意味着历史上的屏蔽记录可能至今仍在影响账号的推荐分数 [34][35] - 马斯克本人在相关讨论下评论称“是的,这算法太烂了”,间接承认了该缺陷 [35]