X アルゴリズムは 3 年後に再びオープンソース化されました。ここでは 5 つの重要な「トラフィックの秘密」をまとめます。

1. 約3年後、マスク氏はX推奨アルゴリズムを再びオープンソース化しました。

先ほど、XエンジニアリングチームはX上で、Xのレコメンデーションアルゴリズムを正式にオープンソース化したと発表しました。紹介文によると、このオープンソースライブラリには、Xの「あなたへのおすすめ」フィードを支えるコアレコメンデーションシステムが含まれています。このシステムは、ネットワーク内コンテンツ（ユーザーがフォローしているアカウントから取得）とネットワーク外コンテンツ（機械学習ベースの検索によって発見）を組み合わせ、GrokベースのTransformerモデルを用いてすべてのコンテンツをランク付けします。つまり、このアルゴリズムはGrokと同じTransformerアーキテクチャを採用しています。

オープンソースアドレス: https://x.com/XEng/status/2013471689087086804

Xの推奨アルゴリズムは、ユーザーがメインインターフェースで目にする「おすすめフィード」コンテンツの生成を担っています。このアルゴリズムは、主に2つのソースから候補となる投稿を取得します。

あなたがフォローしているアカウント（ネットワーク内 / サンダー）
プラットフォーム上で見つかったその他の投稿（ネットワーク外 / フェニックス）

これらの候補エントリは処理され、フィルタリングされ、関連性によって並べ替えられます。

では、アルゴリズムのコアアーキテクチャと動作ロジックは何でしょうか?

アルゴリズムはまず、次の 2 種類のソースから候補コンテンツを抽出します。

フォローリスト内のコンテンツ: あなたが積極的にフォローしているアカウントからの投稿。
興味のないコンテンツ: システムがコンテンツライブラリ全体から取得し、ユーザーが興味を持つ可能性のある投稿。

この段階の目標は、「潜在的に関連性のある投稿を見つけること」です。

システムは、低品質、重複、違法、または不適切なコンテンツを自動的に削除します。例:

ブロックされたアカウントの内容
ユーザーが明らかに興味を持っていないトピック
違法、古い、または無効な投稿

これにより、最終的な選別では価値のある候補者のみが処理されるようになります。

このオープンソースアルゴリズムの中核は、GrokベースのTransformerモデル（大規模言語モデル／ディープラーニングネットワークに類似）を用いて各候補投稿にスコアを付ける点にあります。Transformerモデルは、ユーザーの過去の行動（いいね、返信、共有、クリックなど）に基づいて、各アクションの確率を予測します。最終的に、これらのアクションの確率は重み付けされ、総合的なスコアとして統合されます。スコアの高い投稿は、ユーザーに推奨される可能性が高くなります。

この設計では、基本的に手動で特徴を抽出する従来の方法を廃止し、代わりにエンドツーエンドの学習アプローチを使用してユーザーの興味を予測します。

マスク氏がX推奨アルゴリズムをオープンソース化したのは今回が初めてではない。

2023年3月31日、マスク氏はTwitter買収時の約束通り、ユーザーのタイムラインでツイートを推奨するアルゴリズムを含むTwitterのソースコードの一部を正式にオープンソース化しました。オープンソース化当日、このプロジェクトはGitHubで1万以上のスターを獲得しました。

当時、マスク氏はTwitterで、今回のリリースは「レコメンデーションアルゴリズムの大部分」をカバーしており、残りのアルゴリズムは段階的に公開される予定だと述べた。また、「独立した第三者機関が、Twitterがユーザーに何を表示するかを合理的な精度で判断できる」ことを期待していると述べた。

アルゴリズムの公開に関するSpaceでの議論の中で、彼はこのオープンソースプロジェクトの目標はTwitterを「インターネット上で最も透明性の高いシステム」にし、最も有名で成功しているオープンソースプロジェクトであるLinuxと同等の堅牢性を実現することだと述べた。「全体的な目標は、Twitterを今後もサポートし続けるユーザーがTwitterを最大限に楽しめるようにすることです。」

マスク氏がXアルゴリズムを初めてオープンソース化してからほぼ3年が経ちました。テクノロジー業界のスーパーKOLであるマスク氏は、このオープンソース化を既に大々的に宣伝しています。

1月11日、マスク氏はX上で、新しいXアルゴリズム（ユーザーに推奨するオーガニック検索コンテンツと広告コンテンツを決定するために使用されるすべてのコードを含む）を7日以内にオープンソース化すると投稿した。

このプロセスは 4 週間ごとに繰り返され、どのような変更が行われたかをユーザーが理解できるように、詳細な開発者メモが提供されます。

今日、彼の約束は再び果たされました。

2. なぜマスク氏はオープンソースを望んでいるのでしょうか?

イーロン・マスクが再び「オープンソース」に言及したとき、外部世界から最初に返ってきた反応は技術的な理想主義ではなく、むしろ現実のプレッシャーでした。

過去1年間、Xはコンテンツ配信の仕組みをめぐって繰り返し論争を巻き起こしてきました。同プラットフォームは、右翼的な見解を偏向させ、それを助長するアルゴリズムの導入について広く批判されており、これは単発的な事例ではなく、組織的な傾向であると考えられています。昨年発表された調査報告書は、Xの推奨システムが政治コンテンツの配信において新たな重大な偏向を示していることを指摘しました。

一方、極端な事例が外部からの懐疑心をさらに強めている。昨年、アメリカの右翼活動家チャーリー・カークの暗殺を描いた無修正の動画がXプラットフォーム上で急速に拡散し、激しい抗議を引き起こした。批評家たちは、この動画はプラットフォームのモデレーションメカニズムの欠陥を露呈しただけでなく、 「何を拡散し、何を拡散しないか」を決定するアルゴリズムの暗黙の力を浮き彫りにしたと主張した。

このような背景から、マスク氏が突然アルゴリズムの透明性を強調したことを、単に技術的な決定として解釈するのは難しい。

3. ネットユーザーはどう思うか?

X 推奨アルゴリズムがオープンソース化された後、X プラットフォームのユーザーはそのメカニズムに関して次の 5 つの点をまとめました。

コメントに返信してください。アルゴリズムは「返信＋投稿者の返信」を「いいね！」の75倍重視します。コメントに返信しないと、あなたの投稿の表示に深刻な影響が出ます。
リンクは可視性が低下します。リンクはプロフィールまたは固定投稿に配置し、投稿本文には配置しないでください。
視聴時間は非常に重要です。スワイプして通り過ぎてしまうようでは、エンゲージメントは得られません。動画や投稿は、ユーザーの視聴を止めさせるからこそ、高いエンゲージメントを獲得できるのです。
自分のニッチな分野に集中しましょう。これらの「模擬クラスター」は現実のものです。特定の分野（暗号通貨、テクノロジーなど）から逸脱すると、あらゆる流通チャネルへのアクセスを失ってしまいます。
ブロックしたり沈黙したりすると、スコアが大幅に下がります。物議を醸しつつも、迷惑にならないようにしましょう。

要するに、ユーザーとコミュニケーションを取り、関係を構築し、アプリ内でユーザーを魅了し続けることです。実はとてもシンプルなことです。

一部のネットユーザーは、アーキテクチャはオープンソースであるにもかかわらず、一部のコンポーネントがクローズドのままであることに気づいていました。あるネットユーザーは、今回のリリースは本質的にはエンジンのないフレームワークだと述べています。一体何が欠けているのでしょうか？

欠落している重みパラメータ- コードでは「ポジティブな行動ボーナス」と「ネガティブな行動ペナルティ」が確認されていますが、2023 バージョンとは異なり、特定の値が削除されています。
非表示のモデルの重み- モデルの内部パラメータと計算は含まれません。
未公開のトレーニングデータ- モデルのトレーニングに使用されたデータ、ユーザーの動作がどのようにサンプリングされたか、または「良い」サンプルと「悪い」サンプルがどのように作成されたかについては何もわかっていません。

一般的なXユーザーにとって、Xのアルゴリズムのオープンソース性は大きな影響を及ぼさないでしょう。しかし、透明性の向上により、一部の投稿が注目を集め、他の投稿が注目されない理由を説明できるようになり、研究者はプラットフォームがどのようにコンテンツをランク付けしているかを研究できるようになります。

4. 推奨システムはなぜ激しい競争が繰り広げられている分野なのでしょうか?

多くの技術的な議論において、レコメンデーションシステムはバックエンドエンジニアリングの一部、つまり地味で複雑で、ほとんど脚光を浴びないものとして捉えられがちです。しかし、インターネットの巨大企業の事業運営を真に分析すると、レコメンデーションシステムは周辺モジュールではなく、ビジネスモデル全体を支える「インフラレベルの実体」であることが明らかになります。だからこそ、彼らはインターネット業界の「静かな巨人」と呼ばれることができるのです。

公開データはこれを繰り返し裏付けています。Amazonは、プラットフォーム上での購入の約35%がレコメンデーションシステムから直接来ていると公表しています。Netflixはさらに積極的で、視聴時間の約80%がレコメンデーションアルゴリズムによって決定されています。YouTubeも同様で、視聴時間の約70%がレコメンデーションシステム、特にフィードから来ています。Metaに関しては、具体的な割合は明らかにしていませんが、同社の技術チームは、社内のコンピューティングクラスターにおけるコンピューティングサイクルの約80%がレコメンデーション関連タスクの処理に充てられていると述べています。

これらの数字は何を意味するのでしょうか？これらの製品からレコメンデーションシステムを削除することは、いわば基盤を解体するようなものです。Metaを例に挙げましょう。広告の配置、ユーザーの滞在時間、コンバージョン率はすべてレコメンデーションシステムによって構築されています。レコメンデーションシステムは「ユーザーが何を見るか」を決定するだけでなく、「プラットフォームがどのように収益を上げるか」を直接決定するのです。

しかし、生死を左右するこのシステムは、長い間、極めて高度な技術的複雑さという問題に直面してきました。

従来のレコメンデーションシステムアーキテクチャでは、単一の統合モデルであらゆるシナリオに対応することは困難です。実際の運用システムは、多くの場合、非常に断片化されています。例えば、Meta、LinkedIn、Netflixといった企業では、包括的なレコメンデーションパイプラインの背後で、通常30以上の特殊モデル（リコールモデル、粗ランク付けモデル、細ランク付けモデル、再ランク付けモデル）を同時に実行しています。これらのモデルは、それぞれ異なる目的関数とビジネス指標に合わせて最適化されています。各モデルの背後には、特徴量エンジニアリング、トレーニング、パラメータ調整、デプロイメント、継続的なイテレーションを担当する1つ以上のチームが存在していることがよくあります。

このアプローチのコストは明白です。エンジニアリングの複雑さ、高い保守コスト、そしてタスク間の連携の難しさです。「単一のモデルで複数のレコメンデーション問題を解決できるか？」と誰かが提案すれば、それはシステム全体の複雑さを桁違いに削減することを意味します。これはまさに、業界が長らく望んでいたものの、実現に苦労してきた目標です。

大規模言語モデルの出現により、レコメンデーションシステムに新たな道が開かれました。

LLMは、実践において非常に強力な汎用モデルであることが証明されています。異なるタスク間での強力な移植性を備え、データ規模と計算能力の拡大に伴ってパフォーマンスが向上し続けます。一方、従来のレコメンデーションモデルは「タスクカスタマイズ」されることが多く、複数のシナリオ間で機能を共有することが困難です。

さらに重要なのは、単一の大規模モデルはエンジニアリングを簡素化するだけでなく、「相互学習」の可能性も提供するということです。同じモデルが複数のレコメンデーションタスクを同時に処理すると、異なるタスクからのシグナルが互いに補完し合い、データ規模の拡大に合わせてモデルをより容易に進化させることができます。これはまさに、レコメンデーションシステムが長年求めてきた特性ですが、従来の方法では実現が困難でした。

LLM は何を変えたのでしょうか? 実際には、特徴エンジニアリングから特徴を理解する能力まで、すべてが変わりました。

方法論的な観点から見ると、LLM がレコメンデーションシステムにもたらす最大の変化は、「特徴エンジニアリング」の中核プロセスで発生します。

従来のレコメンデーションシステムでは、エンジニアはまず、ユーザーのクリック履歴、滞在時間、類似ユーザーの嗜好、コンテンツタグなど、多数のシグナルを手動で構築し、モデルに「これらの特徴に基づいて判断してください」と明示的に指示する必要があります。モデル自体はこれらのシグナルの意味を理解しておらず、数値空間におけるマッピング関係を学習するだけです。

言語モデルの導入により、このプロセスは高度に抽象化されます。「この信号に注目、あの信号を無視」といった指示を一つ一つ行う必要はなくなり、モデルに問題を直接記述できるようになります。「これはユーザー、これはコンテンツ、このユーザーは過去に同様のコンテンツを「いいね！」したことがある、そして他のユーザーもこのコンテンツに肯定的なフィードバックを与えている。さあ、このコンテンツをこのユーザーに推奨すべきかどうかを判断してください」といった具合です。

言語モデルは本質的に理解能力を備えており、どの情報が重要なシグナルを構成するか、そしてそれらのシグナルをどのように統合して意思決定を行うかを独自に判断することができます。ある意味では、言語モデルは単に推奨ルールを実行するのではなく、「推奨行為を理解している」と言えます。

この能力は、LLMがトレーニング段階で膨大な量の多様なデータにさらされることから生まれ、微妙ながらも重要なパターンをより巧みに捉えることができるようになります。対照的に、従来のレコメンデーションシステムでは、エンジニアがこれらのパターンを明示的に列挙する必要があり、もし見逃されたパターンがあれば、モデルはそれを検出できません。

バックエンドの観点から見ると、この変化は馴染み深いものです。GPTは、ユーザーが質問したときに文脈情報に基づいて回答を生成するのと同様に、「このコンテンツに興味があるだろうか？」と尋ねられたときにも、既存の情報に基づいて判断を下すことができます。言語モデル自体は、ある程度、「推薦」する能力を既に備えています。