X推荐算法开源事件概述 - 马斯克旗下X平台时隔近三年再次开源其核心推荐算法 该算法负责生成用户主界面的“为你推荐”信息流 [2][12] - 开源库包含支持“为你推荐”信息流的核心推荐系统 结合了用户关注账号的网络内内容和通过机器学习检索发现的网络外内容 并使用基于Grok的Transformer模型对所有内容进行排名 [3] - 开源项目在GitHub上已获得679颗星 代码主要由Rust(62.9%)和Python(37.1%)语言构成 [5] 算法核心架构与运行逻辑 - 算法从两类来源抓取候选内容:用户主动关注的账号发布的帖子(In-Network)以及系统在整个内容库中检索出的可能感兴趣的帖子(Out-of-Network) [6][9] - 系统会过滤掉低质量、重复、违规或不合适的内容 例如已屏蔽账号的内容、用户明确不感兴趣的主题以及非法、过时或无效的帖子 [7][10] - 算法核心是使用一个基于Grok的Transformer模型对每条候选帖子进行评分 该模型根据用户历史行为预测点赞、回复、转发、点击等行为的概率 并将这些概率加权组合成一个综合得分以决定推荐顺序 [7] - 这一设计基本废除了传统手工提取特征的做法 改用端到端的学习方式预测用户兴趣 [8] 开源背景与动机 - 这是马斯克第二次开源X推荐算法 首次开源是在2023年3月31日 当时开源了大部分推荐算法 项目在GitHub收获超过10k颗星 [12] - 马斯克曾表示开源目标是让X成为“互联网上最透明的系统” 并希望独立第三方能确定平台可能向用户展示的内容 [12] - 过去一年 X因其内容分发机制屡次陷入争议 被批评算法层面存在系统性偏见 偏袒和助长右翼观点 [18] - 马斯克在2025年1月11日发帖承诺将于7天内开源新的X算法 包括用于确定推荐哪些自然搜索内容和广告内容的所有代码 [14] - 公司计划每4周重复一次开源流程 并附有详细的开发者说明以帮助了解变化 [15] 行业专家解读 - 专家指出 从系统整体设计看 开源代码依然遵从召回(recall)到排序(rank)的多阶段漏斗筛选架构 Grok模型并未参与中间过程 只是排序模型采用了类似Grok的架构 但参数量远小于Grok [35] - 最大的结构变化在于使用纯Transformer(类Grok)模型结构去做排序 其他差异不大 [36] - 若要实现“每日处理上亿条内容并进行实时多模态理解”的目标 将需要极其充足的GPU算力、高并发处理引擎以及可高速访问的大型文件系统 尤其是处理视频内容计算量巨大 [37] - Grok方法消耗的算力是传统推荐系统的数千倍 这部分成本往往不能被平台收益覆盖 对于X这样以广告为核心收入的平台 只有做到延迟和体验对标原有系统 广告收入才可能持平 但目前来看投入成本过高 投资回报率过低 [37] - 这种“持续、周期性开源”代码的方式 由于只开源代码而不开源所有配套系统和训练数据 无法复现其效果 因此对学术研究价值不大 对工业交流有一定参考意义 [38] - 即使Grok思路跑通 其他平台也不一定会跟进 因为其他平台没有属于自己的Grok 且大部分平台不会在此投入巨额算力 [39] - 行业不会弱化对用户行为和画像的依赖 用户历史行为是实现个性化的数据根基 缺少这部分信息的推荐系统很难做到千人千面 [39] 推荐系统的行业地位与LLM带来的变革 - 推荐系统是互联网巨头商业模式的“基础设施级存在” 堪称“沉默巨兽” [25] - 公开数据显示 亚马逊约35%的购买行为直接来自推荐系统 Netflix约80%的观看时长由推荐算法驱动 YouTube约70%的观看来自推荐系统 Meta内部约80%的算力周期用于服务推荐相关任务 [25] - 如果将推荐系统从这些产品中移除 几乎等同于抽掉地基 它直接决定平台“如何赚钱” [27] - 传统推荐系统架构工程复杂度极高 生产系统往往高度碎片化 一个完整的推荐链路背后通常同时运行着30个甚至更多专用模型 [28] - 大型语言模型的出现为推荐系统提供了新的可能路径 LLM是强大的通用模型 在不同任务间迁移能力强 随着数据规模和算力扩展 性能还能持续提升 [29] - 单一大模型带来的不仅是工程简化 还包括“交叉学习”的潜力 不同任务之间的信号可以相互补充 [29] - LLM对推荐系统最大的改变发生在“特征工程”环节 传统方法需要人为构造大量信号 而引入语言模型后 流程被高度抽象 模型可以基于理解能力自行判断重要信号并做出决策 [31] 开源内容的局限性与社区反应 - 有网友指出 虽然架构开源 但此次发布本质上是一个框架 缺少部分关键内容 例如具体的权重参数、隐藏的模型权重以及未公开的训练数据 [23][26] - 对于普通用户而言 算法开源不会造成太大影响 但更高的透明度可以解释为什么有些帖子能获得曝光而另一些则无人问津 并使研究人员能够研究平台如何对内容进行排名 [23] - 在X平台 有用户对推荐算法机制总结出几点规律 例如回复评论的权重是点赞的75倍 不回复评论会严重影响曝光率 在帖子正文中放置链接会降低曝光率 用户观看时长至关重要 以及“模拟集群”真实存在 偏离细分领域将无法获得分发渠道 [22]
刚刚,马斯克开源基于 Grok 的 X 推荐算法!专家:ROI 过低,其它平台不一定跟
AI前线·2026-01-20 17:36