今天, X(前身为 Twitter)宣布开源其“为你推荐”信息流的核心算法了,大家可以访问这个地址来学习:
https://github.com/xai-org/x-algorithm
随着源代码的公布,我们终于有机会一窥究竟。

核心发现 1:告别手动调整,Grok 模型包揽一切
在传统的推荐系统中,工程师们常常需要手动编写大量规则(即“启发式规则”)和设计特定的数据特征(即“手动工程特征”)来帮助算法判断内容的关联性。例如,他们可能会编写一条规则:“如果一个帖子的点赞数超过 1000,就增加它的权重”。然而,X 的新系统彻底颠覆了这种做法。
系统的所有“重活”现在完全由一个基于 Grok 的 Transformer 模型来完成。它不再依赖工程师编写的任何规则,而是通过直接分析用户过去的行为历史——比如你收藏、回复、转发过什么内容——来自动学习你的偏好。这意味着系统的复杂性已经从繁琐的数据处理和规则维护,转移到了神经网络模型本身。
“我们已经从系统中移除了每一个手动工程特征和大部分的启发式规则。”
这一转变意义重大,它代表了推荐系统设计理念的一次根本性飞跃:不再是人来告诉机器什么是重要的,而是让机器自己从数据中找出答案。
核心发现 2:预测十几种行为,而不仅是“收藏”
一个优秀的推荐系统不仅要预测你“喜欢”什么,还要能预测你“不喜欢”什么。X 的算法通过一个名为 Phoenix 的模型,将这一理念发挥到了极致。值得注意的是,Phoenix 正是前文提到的基于 Grok 的 Transformer 模型,它预测的不是一个模糊的“相关性”分数,而是用户可能对一个帖子采取的十几种具体行为的概率。
这些预测行为可以分为两大类:
- 积极行为示例: P(favorite)、P(reply)、P(repost)、P(quote)、P(share)、P(click)、P(profile_click)、P(follow_author) 和 P(video_view)。
- 消极行为示例: P(not_interested)、P(block_author)、P(mute_author) 和 P(report)。
随后,一个“加权评分器”会将所有这些概率组合成一个最终分数。关键在于,积极行为被赋予正权重(提升帖子分数),而消极行为则被赋予负权重(降低那些你可能反感的内容的分数)。这还不是全部,初步评分后,系统还会运行额外的评分器,如“作者多样性评分器”(Author Diversity Scorer)来避免同一位作者的帖子刷屏,从而进一步优化信息流的健康度。这种方法构建了一个更细致入微的用户偏好模型,能够主动为你过滤掉潜在的干扰信息。
核心发现 3:你的信息流来自两个世界:“Thunder”与“Phoenix”
你的“为你推荐”信息流中的内容主要来自两个不同的源头,它们在系统内部拥有各自的代号:
- 网内内容 (In-Network / Thunder): 这个源头负责提供你已经关注的账户所发布的帖子。可以把它理解为你自己的社交圈。
- 网外内容 (Out-of-Network / Phoenix Retrieval): 这个源头则利用机器学习模型,从 X 的全球海量内容库中为你发现你可能感兴趣但尚未关注的帖子。这部分是系统为你探索新世界的窗口。
算法会从这两个源头获取候选帖子,然后将它们汇集在一起,由核心的 Phoenix Transformer 模型进行统一排名。这种混合模式的强大之处在于,它在“你已选择的”和“系统为你发现的”之间取得了精妙的平衡,既能让你看到来自信任源头的内容,又能不断引入新的信息和视角,有效避免了“信息茧房”的形成。
核心发现 4:一个聪明的排名技巧:“候选隔离”
当算法需要为一批候选帖子进行打分时,它采用了一种非常聪明的工程技巧,名为“候选隔离”(Candidate Isolation)。
简单来说,这意味着在计算任意一个帖子的分数时,这个过程完全独立,不受同一批次中其他候选帖子的影响。每一个帖子都是单独与你的用户背景进行比较和评估的。你可能会问,这有什么好处?
官方文档解释说,这样做能确保评分结果是“一致且可缓存的”。这是一个至关重要的工程决策。因为它意味着,无论一个帖子和哪些其他帖子一起被评估,它得到的分数都是稳定的。这种设计正是 X 能够以极高的速度和可靠性,从数十亿帖子中为你生成个性化信息流的关键所在,它极大地提升了系统的运行效率。这个看似微小的细节,恰恰体现了构建超大规模推荐系统所必需的严谨与巧思。
结语
通过这次开源,我们得以了解 X 推荐算法的四大支柱:一个完全由机器学习驱动、摒弃人工规则的决策核心;一个能够理解用户正面与负面偏好的多行为预测模型;一个平衡了熟悉与新奇的双源内容策略;以及背后支撑这一切高效运转的精妙工程设计。
这次前所未有的透明度,无疑为我们理解现代社交媒体的运作方式打开了一扇窗。它也让我们不禁思考:随着算法变得越来越自主和强大,社交媒体的未来将走向何方?而我们作为用户,又该如何与这些日益智能的系统共处?