X 알고리즘이 3년 만에 다시 오픈소스로 공개되었습니다. 핵심적인 "트래픽 비밀" 5가지를 요약해 보았습니다.

일론 머스크가 이끄는 X(구 트위터)가 플랫폼의 핵심 '추천 알고리즘'을 약 3년 만에 다시 오픈소스로 공개했습니다. 이번 공개는 알고리즘의 투명성을 높이려는 의도지만, 일부 구성 요소는 여전히 비공개로 남아 있습니다.

주요 내용 요약

  • 공개된 알고리즘의 핵심: 이 알고리즘은 사용자의 '추천 피드'를 생성하며, 팔로우하는 계정의 콘텐츠와 플랫폼이 추천하는 콘텐츠를 결합합니다. Grok AI와 동일한 Transformer 기반 모델을 사용해 각 게시물에 점수를 매기고 순위를 정합니다.
  • 작동 방식 간략화:
    1. 후보 수집: 팔로우 계정의 게시물과 사용자 관심사에 맞는 다른 게시물을 수집합니다.
    2. 필터링: 품질이 낮거나, 불법적이거나, 사용자가 차단한 콘텐츠 등을 자동으로 제거합니다.
    3. 순위 매기기: 사용자의 과거 '좋아요', '댓글' 등 행동 데이터를 분석해 각 게시물의 추천 확률을 예측하고 최종 순위를 결정합니다.
  • 오픈소스 공개의 배경: X는 편향된 콘텐츠 추천과 검열 논란에 직면해 왔습니다. 머스크의 이번 결정은 기술적 이상주의보다는 이러한 외부적 압력에 대한 대응으로 보입니다.
  • 네티즌이 분석한 알고리즘 팁:
    • 댓글에 답변하는 것이 '좋아요'보다 노출에 훨씬 더 큰 영향을 줍니다.
    • 게시물 본문에 외부 링크를 포함하면 가시성이 떨어질 수 있습니다.
    • 동영상처럼 사용자의 시선을 오래 사로잡는 콘텐츠가 유리합니다.
  • 한계점: 이번 공개는 '엔진이 없는 프레임워크'에 비유될 수 있습니다. 모델의 구체적인 가중치 매개변수, 학습에 사용된 데이터 등 핵심 요소는 포함되지 않았습니다.
  • 추천 시스템의 중요성: 아마존, 넷플릭스, 유튜브 등 주요 플랫폼의 매출과 사용자 체류 시간의 상당 부분이 추천 알고리즘에 의존합니다. 이는 단순한 기능이 아닌 비즈니스의 핵심 인프라입니다.
  • 미래 방향 - LLM의 역할: 대규모 언어 모델(LLM)은 기존의 복잡한 추천 시스템 구조를 단순화할 잠재력을 가지고 있습니다. LLM은 수동으로 특징을 설계하지 않고도 콘텐츠와 사용자 맥락을 '이해'하여 추천 결정을 내릴 수 있어 새로운 패러다임을 제시합니다.

요약하자면, 이번 오픈소스 공개는 알고리즘의 기본 구조에 대한 투명성을 제고하지만, 완전한 개방은 아니며, 이는 플랫폼이 직면한 신뢰 문제와 추천 시스템이 디지털 비즈니스에서 차지하는 절대적 중요성을 동시에 보여주는 사건입니다.

요약

저자: Tina, Dongmei , InfoQ

1. 약 3년 후, 머스크는 X 추천 알고리즘을 다시 오픈소스로 공개했습니다.

방금 전 X 엔지니어링 팀은 X 플랫폼에서 X 추천 알고리즘을 공식적으로 오픈소스로 공개했다고 발표했습니다. 소개에 따르면, 이 오픈소스 라이브러리에는 X의 "추천 콘텐츠" 피드를 구동하는 핵심 추천 시스템이 포함되어 있습니다. 이 시스템은 사용자가 팔로우하는 계정의 콘텐츠(인 네트워크 콘텐츠)와 머신러닝 기반 검색을 통해 발견된 아웃 네트워크 콘텐츠를 결합하고, Grok 기반 Transformer 모델을 사용하여 모든 콘텐츠의 순위를 매깁니다. 즉, 이 알고리즘은 Grok과 동일한 Transformer 아키텍처를 사용합니다.

오픈 소스 주소: https://x.com/XEng/status/2013471689087086804

그림

X의 추천 알고리즘은 사용자가 메인 인터페이스에서 볼 수 있는 "추천 피드" 콘텐츠를 생성하는 역할을 합니다. 이 알고리즘은 두 가지 주요 소스에서 후보 게시물을 가져옵니다.

  1. 팔로우하는 계정(인 네트워크/썬더)

  2. 해당 플랫폼에서 찾은 다른 게시물 (네트워크 외부 / 피닉스)

이러한 후보 항목들은 관련성을 기준으로 처리, 필터링 및 정렬됩니다.

그렇다면 이 알고리즘의 핵심 아키텍처와 작동 논리는 무엇일까요?

이 알고리즘은 먼저 두 가지 유형의 소스에서 후보 콘텐츠를 추출합니다.

  • 팔로우 목록에 표시되는 콘텐츠: 내가 활발히 팔로우하는 계정의 게시물입니다.

  • 흥미롭지 않은 콘텐츠: 시스템이 전체 콘텐츠 라이브러리에서 사용자가 관심을 가질 만하다고 판단되는 게시물을 찾아 보여줍니다.

이 단계의 목표는 "잠재적으로 관련성 있는 게시물을 찾는 것"입니다.

이 시스템은 품질이 낮거나, 중복되거나, 불법적이거나, 부적절한 콘텐츠를 자동으로 제거합니다. 예를 들면 다음과 같습니다.

  • 차단된 계정의 콘텐츠

  • 사용자들이 명시적으로 관심 없는 주제

  • 불법적이거나, 오래되었거나, 유효하지 않은 게시물

이를 통해 최종 선별 과정에서 가치 있는 후보자만 처리되도록 합니다.

이 오픈 소스 알고리즘의 핵심은 Grok 기반 Transformer 모델(대규모 언어 모델/딥러닝 네트워크와 유사)을 사용하여 각 게시물 후보에 점수를 매기는 것입니다. Transformer 모델은 사용자의 과거 행동(좋아요, 댓글, 공유, 클릭 등)을 기반으로 각 행동의 확률을 예측합니다. 마지막으로, 이러한 행동 확률에 가중치를 부여하여 종합 점수를 산출합니다. 점수가 높을수록 사용자에게 추천될 가능성이 높아집니다.

이 설계는 기본적으로 수동으로 특징을 추출하는 기존 방식을 폐지하고, 대신 엔드투엔드 학습 접근 방식을 사용하여 사용자의 관심사를 예측합니다.

그림

머스크가 X 추천 알고리즘을 오픈소스로 공개한 것은 이번이 처음이 아닙니다.

2023년 3월 31일, 머스크는 트위터를 인수하면서 약속했던 대로 트위터 소스 코드의 일부, 특히 사용자 타임라인에 트윗을 추천하는 알고리즘을 공식적으로 오픈소스로 공개했습니다 . 오픈소스 공개 당일, 해당 프로젝트는 깃허브에서 1만 개 이상의 별을 받았습니다.

당시 머스크는 트위터를 통해 이번 공개가 "추천 알고리즘의 대부분"을 포함하며, 나머지 알고리즘은 점진적으로 공개될 것이라고 밝혔습니다. 또한 그는 "독립적인 제3자가 트위터가 사용자에게 보여줄 콘텐츠를 합리적인 정확도로 판단할 수 있기를 바란다"고 언급했습니다.

알고리즘 공개에 대한 Space 토론에서 그는 오픈 소스 프로젝트인 트위터가 "인터넷에서 가장 투명한 시스템"이자 가장 잘 알려지고 성공적인 오픈 소스 프로젝트인 리눅스만큼 견고한 시스템을 만드는 것을 목표로 한다고 말했습니다. "궁극적인 목표는 트위터를 계속 지원하는 사용자들이 트위터를 최대한 활용할 수 있도록 하는 것입니다."

그림

머스크가 X 알고리즘을 처음 오픈소스로 공개한 지 거의 3년이 지났습니다. 기술 업계의 슈퍼 KOL인 머스크는 이미 이 오픈소스 공개를 위해 많은 홍보 활동을 펼쳤습니다.

1월 11일, 머스크는 X에 새로운 X 알고리즘(사용자에게 추천할 검색 콘텐츠와 광고 콘텐츠를 결정하는 데 사용되는 모든 코드 포함)을 7일 이내에 오픈소스로 공개하겠다고 게시했습니다.

이 과정은 4주마다 반복되며, 사용자가 변경 사항을 이해하는 데 도움이 되도록 개발자가 작성한 자세한 업데이트 노트가 제공됩니다.

오늘, 그의 약속이 다시 한번 이루어졌습니다.

그림

2. 머스크는 왜 오픈소스를 원하는가?

일론 머스크가 다시 "오픈 소스"를 언급할 때, 외부 세계의 첫 반응은 기술적 이상주의가 아니라 현실적인 압박감이었다.

지난 한 해 동안 X는 콘텐츠 배포 방식 때문에 여러 차례 논란에 휩싸였습니다. 이 플랫폼은 우익 성향의 콘텐츠를 편향적으로 홍보하는 알고리즘으로 인해 광범위한 비판을 받았으며, 이는 단지 일회성 사건이 아니라 시스템적인 문제로 여겨졌습니다. 작년에 발표된 한 연구 보고서는 X의 추천 시스템이 정치 콘텐츠 배포에 있어 심각한 새로운 편향성을 보이고 있다고 지적했습니다.

한편, 몇몇 극단적인 사례들은 외부의 회의론을 더욱 증폭시켰다. 작년에는 미국의 우익 활동가 찰리 커크 암살 사건과 관련된 검열되지 않은 영상이 X 플랫폼에서 빠르게 확산되면서 대중의 거센 비난을 불러일으켰다. 비평가들은 이 사건이 플랫폼의 콘텐츠 검열 시스템의 실패를 드러냈을 뿐만 아니라 , "무엇을 확산시키고 무엇을 확산시키지 않을지"를 결정하는 알고리즘의 암묵적인 힘을 보여준다고 주장했다.

이러한 배경을 고려할 때, 머스크가 갑자기 알고리즘 투명성을 강조하는 것은 단순히 기술적인 결정으로만 해석하기 어렵습니다.

그림

3. 네티즌들은 어떻게 생각하나요?

X 추천 알고리즘이 오픈소스로 공개된 후, X 플랫폼 사용자들은 해당 알고리즘의 작동 방식에 대해 다음과 같은 다섯 가지 사항을 요약했습니다.

  • 댓글에 답글을 달아주세요 . 알고리즘은 '좋아요'보다 '답글 + 작성자 답변'에 75배 더 높은 가중치를 부여합니다. 댓글에 답글을 달지 않으면 가시성에 심각한 영향을 미칠 수 있습니다.
  • 링크는 가시성을 떨어뜨립니다 . 링크는 프로필이나 고정 게시물에 배치하고, 게시물 본문에는 절대 넣지 마세요.
  • 시청 시간은 매우 중요합니다 . 사용자가 그냥 넘겨버린다면, 그들의 관심을 끌지 못한 것입니다. 동영상이나 게시물은 사용자의 시선을 사로잡기 때문에 높은 참여율을 보입니다.
  • 전문 분야에 집중하세요 . 이러한 "모의 클러스터"는 실제로 존재합니다. 특정 분야(암호화폐, 기술 등)에서 벗어나면 모든 유통 채널에 접근할 수 없게 됩니다.
  • 차단하거나 침묵을 지키면 점수가 크게 떨어집니다 . 논쟁을 일으키되, 불쾌감을 주지 마세요.

요약하자면, 사용자와 소통하고, 관계를 구축하고, 앱 내에서 사용자의 참여를 유도하세요. 사실 아주 간단합니다.

그림

일부 네티즌들은 아키텍처는 오픈 소스이지만 일부 구성 요소는 여전히 비공개로 유지된다는 점을 지적했습니다. 한 네티즌은 이번 릴리스가 엔진이 없는 프레임워크에 불과하다고 말했습니다. 정확히 무엇이 빠져 있는 걸까요?

  • 누락된 가중치 매개변수 - 코드는 "긍정적 행동 보너스"와 "부정적 행동 페널티"를 확인하지만, 2023년 버전과 달리 구체적인 값은 삭제되었습니다.

  • 숨겨진 모델 가중치 에는 모델의 내부 매개변수 및 계산이 포함되지 않습니다.

  • 미공개 학습 데이터 - 모델 학습에 사용된 데이터, 사용자 행동 샘플링 방식, "좋은" 샘플과 "나쁜" 샘플 구성 방식에 대해 알려진 바가 없습니다.

일반 X 사용자에게는 X의 알고리즘이 오픈소스라는 점이 큰 영향을 미치지 않을 것입니다. 하지만 투명성이 높아지면 어떤 게시물이 주목받고 어떤 게시물은 주목받지 못하는지 이유를 설명할 수 있고, 연구자들이 플랫폼이 콘텐츠 순위를 매기는 방식을 연구할 수 있게 됩니다.

4. 추천 시스템이 왜 이렇게 치열한 경쟁 분야인가요?

대부분의 기술적 논의에서 추천 시스템은 흔히 백엔드 엔지니어링의 일부로 여겨지며, 눈에 잘 띄지 않고 복잡하며 주목받는 경우가 드뭅니다. 그러나 인터넷 거대 기업들의 운영 방식을 제대로 분석해 보면 추천 시스템은 단순한 주변 모듈이 아니라 전체 비즈니스 모델을 뒷받침하는 "인프라 수준의 핵심 요소"라는 사실을 알 수 있습니다. 바로 이러한 이유로 추천 시스템을 인터넷 업계의 "조용한 거인"이라고 부를 수 있는 것입니다.

공개적으로 이용 가능한 데이터는 이를 반복적으로 확인시켜 줍니다. 아마존은 자사 플랫폼에서 이루어지는 구매의 약 35%가 추천 시스템을 통해 직접 발생한다고 밝혔으며, 넷플릭스는 더욱 적극적으로 추천 알고리즘을 통해 시청 시간의 약 80%를 유도하고 있습니다. 유튜브 역시 비슷한 수준으로, 특히 피드를 통해 시청 시간의 약 70%가 추천 시스템에서 발생합니다. 메타(Meta)의 경우, 구체적인 비율을 공개한 적은 없지만, 기술팀은 내부 컴퓨팅 클러스터의 컴퓨팅 사이클 중 약 80%가 추천 관련 작업에 투입된다고 언급했습니다.

이 수치들은 무엇을 의미할까요? 이러한 제품에서 추천 시스템을 제거하는 것은 거의 기반을 허무는 것과 같습니다 . 메타(Meta)를 예로 들면, 광고 배치, 사용자 체류 시간, 전환율 모두 추천 시스템을 기반으로 합니다. 추천 시스템은 사용자가 무엇을 보게 될지 결정할 뿐만 아니라 플랫폼이 어떻게 수익을 창출하는지도 직접적으로 결정합니다.

하지만 생사를 결정하는 바로 이 시스템은 오랫동안 극도로 복잡한 공학적 문제1에 직면해 왔습니다.

기존 추천 시스템 아키텍처에서는 모든 시나리오를 포괄하는 단일 통합 모델을 사용하는 것이 어렵습니다. 실제 운영 시스템은 대개 매우 파편화되어 있습니다. 예를 들어, Meta, LinkedIn, Netflix와 같은 기업들은 일반적으로 완전한 추천 파이프라인 뒤에서 30개 이상의 특화된 모델을 동시에 운영합니다. 여기에는 재현율 모델, 대략적인 순위 모델, 정밀한 순위 모델, 재순위 모델 등이 포함되며, 각 모델은 서로 다른 목표 함수와 비즈니스 지표에 최적화되어 있습니다. 각 모델 뒤에는 특징 엔지니어링, 학습, 매개변수 튜닝, 배포 및 지속적인 반복 작업을 담당하는 하나 이상의 팀이 있는 경우가 많습니다.

이러한 접근 방식의 단점은 명백합니다. 엔지니어링 복잡성, 높은 유지 관리 비용, 그리고 작업 간 협업의 어려움 등이 그것입니다. 하지만 누군가 "단일 모델로 여러 추천 문제를 해결할 수 있을까?"라는 질문을 던진다면, 전체 시스템의 복잡성이 10분의 1 수준으로 줄어들게 됩니다. 이는 업계가 오랫동안 바라왔지만 달성하기 어려웠던 바로 그 목표입니다.

대규모 언어 모델의 등장은 추천 시스템에 새로운 가능성을 열어주었다.

LLM은 실제로 매우 강력한 범용 모델임이 입증되었습니다. 다양한 작업에 걸쳐 뛰어난 전이성을 보이며, 데이터 규모와 컴퓨팅 성능이 향상됨에 따라 성능 또한 지속적으로 개선됩니다. 반면, 기존 추천 모델은 종종 "작업별 맞춤형"으로 설계되어 여러 시나리오에서 기능을 공유하기 어렵습니다.

더욱 중요한 것은, 단일 대형 모델은 엔지니어링을 단순화할 뿐만 아니라 "교차 학습"의 가능성을 제공한다는 점입니다. 동일한 모델이 여러 추천 작업을 동시에 처리할 때, 서로 다른 작업에서 얻은 신호들이 상호 보완적인 역할을 할 수 있으며, 데이터 규모가 커짐에 따라 모델이 더욱 쉽게 진화할 수 있습니다. 이는 추천 시스템이 오랫동안 갈망해 왔지만 기존 방식으로는 달성하기 어려웠던 바로 그 특징입니다.

LLM은 무엇을 바꿨을까요? 실제로 피처 엔지니어링부터 피처를 이해하는 능력까지 모든 것을 바꿨습니다.

방법론적 관점에서 볼 때, LLM이 추천 시스템에 가져오는 가장 큰 변화는 "특징 엔지니어링"이라는 핵심 프로세스에서 발생합니다.

기존 추천 시스템에서는 엔지니어가 먼저 사용자 클릭 기록, 체류 시간, 유사 사용자 선호도, 콘텐츠 태그 등과 같은 수많은 신호를 수동으로 구축한 다음 모델에 "이러한 특징을 기반으로 판단을 내리세요"라고 명시적으로 지시해야 합니다. 모델 자체는 이러한 신호의 의미를 이해하지 못하고, 단지 수치 공간에서의 매핑 관계만 학습합니다.

언어 모델이 도입되면서 이 과정은 고도로 추상화되었습니다. 더 이상 "이 신호를 보고, 저 신호는 무시하라"라고 하나씩 지정할 필요 없이, 문제를 모델에 직접 설명할 수 있습니다. 예를 들어, "이 사용자는 콘텐츠에 관심이 있습니다. 이 사용자는 과거에 유사한 콘텐츠를 좋아했고, 다른 사용자들도 이 콘텐츠에 대해 긍정적인 평가를 남겼습니다. 이제 이 콘텐츠를 이 사용자에게 추천해야 할지 판단해 주세요."와 같이 설명할 수 있습니다.

언어 모델은 본질적으로 이해 능력을 갖추고 있습니다. 어떤 정보가 중요한 신호인지, 그리고 이러한 신호들을 종합하여 어떻게 의사결정을 내릴지 스스로 판단할 수 있습니다. 다시 말해, 언어 모델은 단순히 추천 규칙을 실행하는 것이 아니라 "추천 행위 자체를 이해하는" 것입니다.

이러한 능력은 LLM이 학습 단계에서 방대한 양의 다양한 데이터에 노출되기 때문에 미묘하지만 중요한 패턴을 포착하는 데 더욱 능숙해진다는 사실에서 비롯됩니다. 반면, 기존 추천 시스템은 엔지니어가 이러한 패턴을 명시적으로 열거해야 하며, 만약 패턴을 놓치면 모델이 이를 감지할 수 없습니다.

백엔드 관점에서 보면 이러한 변화는 낯설지 않습니다. GPT가 질문을 하면 문맥 정보를 바탕으로 답변을 생성하는 것처럼, "이 콘텐츠에 관심이 있을까요?"라고 물으면 기존 정보를 기반으로 판단을 내릴 수도 있습니다. 어느 정도는 언어 모델 자체가 이미 "추천" 기능을 갖추고 있는 셈입니다.

공유하기:

작성자: PA荐读

이 글은 PANews 입주 칼럼니스트의 관점으로, PANews의 입장을 대표하지 않으며 법적 책임을 지지 않습니다.

글 및 관점은 투자 조언을 구성하지 않습니다

이미지 출처: PA荐读 침해가 있는 경우 저자에게 삭제를 요청하세요.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
2026-01-21 11:00
2026-01-21 02:58
2026-01-20 05:36
2026-01-19 01:01
2026-01-18 08:59
2026-01-17 12:28

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读