원제목: 50개의 약한 신호를 하나의 성공적인 거래로 결합하는 수학적 원리
원저자: 로안, 암호화폐 분석가
번역 및 주석: RyanChi 씨, insiders.bot
머리말
작년, 트럼프와 머스크의 모교인 와튼 스쿨에서 교환학생으로 보낸 첫 주 동안, 저는 @DakshBigShit과 함께 @insidersdotbot을 공동 창업했습니다. 와튼의 훌륭한 환경과 뉴욕과의 근접성 덕분에, 저는 4개월 만에 수억 달러를 운용하는 여러 헤지펀드의 파트너들과 심도 있는 대화를 나눌 수 있었습니다.
이후 홍콩으로 돌아와 사업을 시작했을 때, insiders.bot이 이미 등장하고 있었고, 이를 통해 아시아의 양적 분석 기관들과 심도 있는 교류를 할 수 있는 기회를 얻었습니다.
이 과정 내내 제가 반복해서 들은 단어는 "신호"였습니다.
진입 신호, 청산 신호 등. 이 과정에서 개인 투자자와 기관 투자자의 가장 큰 차이점은 정보나 자본의 양이 아니라 사고방식입니다. 개인 투자자는 항상 완벽한 단 하나의 신호를 찾으려 애쓰는 반면, 기관 투자자는 수학적 모델을 사용하여 수십 개의 평범한 신호를 하나의 일관된 전체로 통합합니다.
바이낸스, OKX, 비트겟과 같은 거래 플랫폼의 지갑에는 이미 오래전부터 다양한 신호 방송 콘텐츠가 포함되어 있습니다.
insiders.bot은 아주 초창기부터 "시그널 봇"으로 자리매김했습니다. 당시 가장 인기 있었던 v1.2 시그널은 여러 스마트 머니 시그널을 통합하여 많은 블록체인 업계 리더들의 찬사를 받았습니다. 예측 시장 트레이더들 사이에서 선호도가 높은 방송 시스템인 @poly_beats 역시 본질적으로 시그널입니다.
RohOnChain의 글은 제가 본 "시그널" 프레임워크에 대한 설명 중 가장 명확한 글입니다. 저는 여러분이 양적 배경지식이 없더라도 처음부터 끝까지 이해할 수 있도록 많은 시간을 들여 글을 다시 쓰고, 내용을 보완하고, 주석을 달았습니다.
파트 1: 존재하지 않는 "완벽한 신호"
20년간 시스템 트레이딩 분야에서 일해온 펀드 파트너와 이야기를 나누던 중, 몇 달 동안 곱씹어보게 만드는 문장을 들었습니다.
그날 그는 내 맞은편에 앉아 우리가 논의하던 전략을 지켜보며 차분하게 말했다.
"항상 정확한 단 하나의 신호를 찾으려고 애쓰지만, 그런 건 존재하지 않습니다. 실제로 성공하는 트레이딩 데스크는 '약간 정확한' 신호들을 여러 개 조합해내는 팀입니다."
그가 설명한 내용은 양적 거래 업계에서 '전문 용어'라고 부르는, 매우 추상적이고 전문적인 용어입니다.
알파 조합.
이 프레임워크는 획기적인 전환점입니다. 이는 꾸준히 수익을 창출할 수 있는 기관 투자자와 "방향을 제대로 예측했음에도 불구하고 여전히 손실을 보는" 개인 투자자를 명확하게 구분합니다.
이 글을 읽고 나면 다음 다섯 가지를 이해하게 될 것입니다.
1. 50개의 약한 신호가 합쳐지면 하나의 강한 신호를 완전히 압도할 수 있는 이유는 무엇일까요?
2. "선제적 관리의 기본 법칙"이란 무엇인가?
3. 기관들이 여러 가지 부정적인 신호를 높은 성공률의 전략으로 바꾸기 위해 사용하는 11단계는 정확히 무엇인가요?
4. 방향을 정확하게 예측했는데도 왜 계속 손실을 보는 건가요?
5. 이 시스템을 폴리마켓에 완벽하게 적용하려면 어떻게 해야 할까요?
진정으로 자신만의 트레이딩 우위를 구축하고 싶다면, 어떤 장도 건너뛰지 마십시오. 이 프레임워크는 다섯 가지 구성 요소를 모두 함께 고려할 때 진정한 위력을 발휘합니다.
참고로, 이 글은 AI 에이전트에 최적화된 구조로 작성되었습니다. 클로드, 마누스 또는 다른 어떤 AI에게든 이 글을 입력하여 바로 자신만의 양자화 모델 구축을 시작해 보세요.
1.1 "신호"란 정확히 무엇인가요?
수학에 본격적으로 들어가기 전에 먼저 공통된 용어를 정립해야 합니다. 바로 "신호"란 정확히 무엇인지입니다.
일상생활에서 우리는 흔히 "이 동전 가격이 오를 것 같아" 또는 "트럼프 당선에 대해 낙관적이야"와 같은 말을 합니다. 이러한 것들은 의견일 뿐입니다. 의견은 모호하고 주관적이며, 정확한 과거 데이터 분석을 통해 검증할 수 없습니다.
하지만 제도적 양적 틀 내에서 신호란 미래 가격이나 확률 변화와 통계적으로 반복 가능한 관계를 갖는 측정 가능한 데이터 포인트를 의미합니다.
다음 세 가지 조건을 충족해야 합니다.
정량화 가능 해야 합니다. 구체적인 수치여야 합니다. 예를 들어, "지난 24시간 동안 거래량이 세 배 증가했다"와 같이 표현해야 하며, "최근에 더 많은 사람들이 이에 대해 이야기하고 있다"와 같이 표현해서는 안 됩니다.
방향성이 있어야 합니다. 가격이 오를지 내릴지, 혹은 확률이 증가할지 감소할지를 알려줄 수 있어야 합니다.
반복 가능성: 이는 단발적인 사건이 아니라, 역사상 여러 번 발생해야 하며, 시장은 발생할 때마다 유사한 방식으로 반응해야 합니다.
예를 들어, 바이낸스에서 승률이 높은 대형 투자자들이 연속적으로 매수를 하고, 그 매수량이 상당하다면, 그것은 하나의 신호가 될 수 있습니다.
예를 들어, 저희 @insidersdotbot v1.2의 스큐(스마트 머니 상승/하락 비율) 또한 신호입니다.
예를 들어, 폴리마켓(Polymarket)에서 과거 승률이 70%가 넘는 스마트 머니 투자자가 갑자기 인기가 덜한 계약에 5만 달러를 베팅한다면, 이는 전형적인 "미세구조 신호"입니다. 이 신호는 구체적이고(5만 달러), 방향성을 가지며(매수한 옵션), 반복 가능합니다(과거 베팅 기록을 모두 백테스팅할 수 있음).
이제 신호가 무엇인지 이해했으니 다음 질문을 살펴보겠습니다. 신호의 정확도는 어느 정도입니까?
1.2 IC란 무엇인가요? 신호의 "성적표"입니다.
주식 거래를 해본 사람이라면 누구나 이런 경험을 해봤을 겁니다. 내 분석은 분명히 맞았고, 가격도 예상한 방향으로 움직였는데도 결국 손실을 보는 경우 말이죠.
이건 운이 아닙니다. 거래에서 단 하나의 신호에만 의존하면 손실을 보는 것은 수학적으로 거의 불가피합니다. 이 점을 이해하는 것이 앞으로 설명할 모든 것의 기초가 됩니다.
정량적 연구에서 모든 신호에는 정확도를 측정하는 지표인 정보 계수(IC)가 있습니다.
IC는 예측과 실제 시장 움직임 간의 상관관계를 측정합니다. 신호에 대한 "성적표"라고 생각하시면 됩니다.
그렇다면 IC는 정확히 어떻게 계산될까요? 단계별로 살펴보겠습니다.

첫 번째 단계는 예측입니다. 예를 들어, 오늘 폴리마켓에 20개의 활성 계약이 있다고 가정해 보겠습니다. 여러분은 신호를 사용하여 이 20개 계약에 점수를 매기고 순위를 정합니다. 계약 A가 상승할 가능성이 가장 높다고 판단되면 1위로, 계약 B는 2위로, 이런 식으로 20위까지 순위를 매깁니다.
두 번째 단계는 기다리는 것입니다. 하루, 일주일, 또는 원하는 기간 동안 기다리면서 시장의 움직임을 살펴보세요.
세 번째 단계는 비교입니다. 시간이 다 되면 이 20개 계약의 실제 가격 변동률을 순위별로 매깁니다. 가장 크게 상승한 계약을 1위, 두 번째로 크게 상승한 계약을 2위로 하는 식으로 순위를 정합니다.
네 번째 단계는 계산입니다. 이제 두 개의 순위 열이 생겼습니다. 하나는 초기 예측 순위이고, 다른 하나는 실제 순위입니다. 계산해야 할 것은 이 두 순위 열 사이의 상관관계입니다.
여기서 사용된 스피어만 순위 상관계수는 통계학에서 나온 것입니다.
무섭게 들릴 수도 있지만, 실제 논리는 매우 간단합니다.
• 만약 1위로 예상했던 계약의 가격이 실제로 가장 많이 오르고, 2위로 예상했던 계약의 가격이 실제로 가장 많이 오른다면, 두 순위 예측이 매우 일관성이 있는 것이며, IC는 +1.0에 가까울 것입니다.
• 만약 정반대의 경우(가장 많이 상승했던 것이 실제로는 가장 많이 하락했다면), IC는 -1.0에 가까워질 것입니다.
• 상관관계가 없다면 IC는 0.0이 되며, 이는 신호가 주사위를 굴리는 것과 다를 바 없다는 것을 의미합니다.

위 차트는 서로 다른 세 가지 IC 레벨에서 예측 순위와 실제 순위 간의 관계를 보여줍니다.
왼쪽은 IC 값이 0.9에 가까운 경우로, 거의 모든 점이 대각선 상에 위치하여 예측된 높이가 실제 높이와 일치함을 나타냅니다.
중간 부분은 0.05에서 0.15 사이의 IC 값을 보여주며, 점들이 여기저기 흩어져 있어 매우 약한 양의 상관관계 경향만 나타냅니다.
오른쪽은 IC가 0인 경우를 보여주는데, 이는 완전히 무작위적이며 아무런 패턴이 없음을 나타냅니다.
단순히 수치 값 대신 순위를 사용하는 이유는 무엇일까요?
순위는 이상치에 둔감하기 때문입니다. 예를 들어, 블랙 스완 사건으로 인해 계약 가격이 500% 급등했다고 가정해 보겠습니다. 수치적 방법을 사용하여 상관관계를 계산하면 이 단일 이상치가 전체 결과를 왜곡하게 됩니다. 그러나 순위를 사용하면 해당 계약은 단순히 "1위"로 표시되고 다른 계약의 순위에는 영향을 미치지 않습니다. 이것이 바로 기관들이 피어슨 상관계수보다 스피어만 상관계수를 선호하는 이유입니다.
실제로는 하루 동안의 IC만 계산하는 것이 아닙니다. 이 과정을 여러 날(예: 100일) 동안 반복한 다음 평균을 냅니다. 이 평균이 신호의 평균 IC입니다.
그렇다면 월스트리트 최고 거래 데스크에서 수십억 달러 규모의 거래 신호가 오가는 곳에는 어떤 IC(집적 회로)가 있을까요?
정답은 0.05에서 0.15 사이입니다.

이 수치를 다시 한번 살펴보세요. 기관 차원에서 사용하는 최상위 단일 신호는 대부분의 경우 틀립니다. 가끔이 아니라, 거의 항상 틀립니다.
IC = 0.05는 무슨 의미인가요?
이는 신호와 실제 시장 움직임 사이에 5%의 상관관계만 있다는 것을 의미합니다. 산점도를 그리면 점들이 거의 무작위로 분포되어 매우 약한 양의 추세만 보일 것입니다.
이것은 신호 오류가 아닙니다. 경쟁 시장의 본질적인 특성입니다. 어떤 중요한 이점이 발견되면, 그 이점이 완전히 고갈되고 극도로 낮은 수준으로 압축될 때까지 자본이 쏟아져 들어올 것입니다. 효율적인 시장에서 0.05의 안정적인 IC를 유지하는 것만으로도 이미 놀라운 성과입니다.
개별 신호가 매우 미약하다는 점을 고려할 때, 기관들은 정확히 어떻게 수익을 창출하는 걸까요?
1.3 기관의 결정타: 선제적 경영의 기본 법칙
1994년, 양적 연구의 선구자인 리처드 그리놀드와 로널드 칸은 저서 《액티브 포트폴리오 관리》에서 자산 관리 업계 전체에 혁명을 일으킨 공식을 제시했습니다.
IR = IC x √N
이 공식은 능동적 관리의 기본 법칙으로 알려져 있습니다.

그렇다면 이 세 글자는 무엇을 의미할까요?
정보비율(IR) 은 거래 시스템의 전반적인 성과를 나타내는 지표입니다. 이는 감수한 위험 단위당 얼마나 많은 수익을 올리는지 측정합니다. 즉, "비용 효율성" 지표라고 생각할 수 있습니다. IR이 높을수록 전략이 더 안정적이라는 의미입니다. 양적 거래 분야에서는 IR 1.0을 최고 수준으로 간주합니다.
IC(정보 계수) 는 우리가 이 섹션 전체에서 다룬 내용으로, 개별 신호의 평균 정확도를 나타냅니다.
N은 결합할 독립 신호의 개수입니다. 여기서 "독립" 이라는 단어가 매우 중요합니다. 그 이유는 4부에서 자세히 설명하겠습니다.
이 공식의 핵심 정보는 다음과 같습니다. 전체 시스템의 성능(IR) 은 단일 신호의 정확도(IC)에 신호 개수의 제곱근(√N)을 곱한 값과 같습니다.
자, 여기서 질문이 생깁니다. 왜 제곱근을 사용하는 걸까요? 그냥 N을 곱하면 안 되는 걸까요? 이는 매우 중요한 질문이며, 제가 처음부터 그 유도 과정을 설명해 드리겠습니다.
동전을 던진다고 상상해 보세요. 앞면이 나오면 1달러를 따고, 뒷면이 나오면 1달러를 잃습니다.
동전을 한 번만 던지면 결과는 완전히 무작위입니다. 1달러를 따거나 1달러를 잃거나 둘 중 하나입니다.
하지만 동전을 100번 던진다면 어떨까요? 앞면과 뒷면이 각각 50번씩 나오므로 총 예상 수익은 0입니다. 하지만 핵심은 변동성입니다. 통계에 따르면 100번의 독립적인 동전 던지기의 총 변동성은 100이 아니라 √100 = 10입니다.
왜냐하면 독립적인 무작위 사건들이 중첩될 때, 그 사건들의 잡음이 서로 상쇄되기 때문입니다. 긍정적인 결과와 부정적인 결과가 번갈아 나타나고, 모두 같은 방향으로 움직이지는 않습니다. 따라서 전체적인 변동은 발생 횟수의 총합보다 느리게 증가합니다.
이제 이 논리를 신호 조합에 적용해 보겠습니다. 각각 작은 양의 이점(IC가 0보다 큼)을 가진 N개의 독립적인 신호가 있다고 가정해 봅시다.
전체 이득(모든 신호의 이점을 합산한 값)은 N에 비례하여 선형적으로 증가합니다. 이는 신호가 하나씩 추가될 때마다 약간의 이점이 더해지기 때문입니다. 10개의 신호를 활용했을 때의 총 이점은 1개의 신호를 활용했을 때의 10배입니다.
하지만 전체 위험(모든 신호에서 발생하는 잡음을 합친 것)은 √N에 비례하여 증가합니다. 이는 개별 잡음이 서로 상쇄되기 때문입니다. 10개의 독립적인 신호에서 발생하는 총 잡음은 단일 신호에서 발생하는 잡음의 10배가 아니라 약 3.16배(√10 ≈ 3.16)입니다.
따라서 정보 비율은 총 수익률 / 총 위험 = (IC x N) / (σ x √N) = IC x (N / √N) = IC x √N입니다.
이것이 IR = IC x √N의 기원입니다.

위 차트는 이러한 관계를 보여줍니다. 녹색 선은 총 수익률을 나타내며, 신호 개수에 비례하여 선형적으로 증가합니다. 파란색 선은 정보 비율(IR)을 나타내며, √N에 비례하여 증가합니다. 수익률이 증가함에 따라 위험도 증가하지만, 수익률 증가율이 위험 증가율보다 높습니다. 두 선 사이의 간격이 넓어지는데, 이 간격은 독립적인 신호 개수를 늘림으로써 얻을 수 있는 거래 이점을 나타냅니다.
이 공식의 위력을 직접 경험해 보기 위해 몇 가지 구체적인 계산을 해보겠습니다.
시나리오 A: 50개의 약한 신호가 있습니다. 각 신호는 매우 약하며, 간섭계수(IC)는 0.05에 불과합니다. 따라서 전체 시스템의 간섭저항(IR)은 0.05 x √50 = 0.05 x 7.07 = 0.354입니다.
시나리오 B: 다른 트레이더는 강력한 신호 하나를 발견했습니다. 그는 부지런히 탐색한 끝에 IC가 0.10인 매우 강력한 단일 신호를 찾아냈습니다(귀하의 신호보다 두 배 더 정확함). 하지만 그는 신호가 하나뿐이므로 그의 IR은 0.10 x √1 = 0.10입니다.

당신이 그의 시스템보다 정확도가 절반밖에 안 되는 50개의 "엉터리 신호"를 사용하여 만든 시스템이 그의 "신급 신호"보다 3.5배나 더 뛰어났습니다.
이것이 바로 헤지펀드들이 단 하나의 "완벽한 지표"에 모든 것을 걸기보다는 수백 명의 연구원을 고용하여 수백 개의 미약한 신호를 찾아내는 것을 선호하는 이유입니다. 수학적으로 완벽한 신호를 찾는 것은 결국 막다른 길이라는 것이 증명되었습니다.
올바른 접근 방식은 가능한 한 많은 독립적인 미약 신호를 수집한 다음 수학적으로 결합하는 것입니다.
이 아이디어는 실제로 저희 insiders.bot 지갑 필터의 핵심 영감이었습니다. 사용자가 "완벽한 스마트 머니 지갑"을 직접 찾는 대신, 저희는 다양한 전략과 초점을 가진 수백 개의 고수익 지갑을 추적할 수 있도록 지원합니다. 이러한 미약한 신호들을 종합하여 진정으로 정확한 결론을 도출할 수 있습니다.
고급 연습 1:
현재 가장 의존하고 있는 거래 신호를 솔직하게 평가해 보세요. 해당 신호의 IC(이자율)는 얼마인가요? 만약 체계적으로 측정해 본 적이 없다면, 눈을 감고 거래하는 것과 마찬가지입니다.
직접 파이썬으로 간단한 백테스팅 스크립트를 작성해 보세요. 지난 30일 동안의 예측 순위와 실제 순위를 기록한 다음, `scipy.stats.spearmanr()` 함수를 사용하여 IC를 계산해 보세요. 결과에 놀라실 수도 있습니다.
확률론의 탄탄한 기초를 쌓고 싶다면 하버드 대학교에서 무료로 제공하는 '확률론 입문'을 추천합니다. 첫 6개 장만으로도 충분합니다.
신호를 결합해야 하는 이유를 이해했으니, 다음 단계는 이러한 신호를 어디에서 찾을 수 있는지 알아내는 것입니다.
제2부: 5대 주요 신호의 원료
1부에서는 신호란 무엇인지(정량화 가능하고, 방향성을 가지며, 반복 가능한 데이터 포인트)를 정의했습니다.
하지만 신호가 아주 강할 필요는 없습니다. 단지 많은 관측치에 걸쳐 동전 던지기보다 약간 더 정확한 성능을 보이면 되고, 이 "약간의 정확도"는 안정적이고 검증 가능해야 합니다.
그렇다면 기관들은 이러한 "조금 더 정확한" 데이터들을 정확히 어디에서 찾아내는 것일까요?
다음은 시스템 트레이딩 플랫폼에서 실제로 사용하는 5가지 핵심 신호 범주입니다.

2.1 가격 및 모멘텀 신호
모멘텀 신호는 가격이 어떤 방향으로 움직이고 있으며, 일정 기간 동안 얼마나 빠르게 움직이는지를 보여줍니다.
모멘텀 신호가 효과적인 이유는 무엇일까요? 시장 참여자들이 새로운 정보에 관성적으로 반응하기 때문입니다.
• 단기적으로 볼 때, 사람들이 충분히 빠르게 대응하지 못하고 있어 이러한 추세가 지속될 것입니다.
중기적으로 볼 때, 사람들은 과잉 반응하는 경향이 있으며, 이는 가격 조정으로 이어집니다.
가속하는 기차를 상상해 보세요. 기관사가 가속 페달에서 발을 떼더라도 기차는 즉시 멈추지 않습니다. 관성 때문에 기차는 일정 거리를 계속 앞으로 나아갈 것입니다. 운동량 신호는 바로 이 "관성 거리"를 포착합니다.
폴리마켓에서 어떻게 사용하나요?
어떤 계약의 가격이 지난 3일 동안 0.40달러에서 0.55달러로 꾸준히 상승했고, 거래량 또한 함께 증가했다고 가정해 봅시다. 이는 지속적인 매수 압력이 가격을 끌어올리고 있음을 나타냅니다.
단기적으로 가격이 계속 상승할 확률은 비교적 높습니다. 이는 당신이 내부 정보를 알고 있어서가 아니라, 시장의 상승세가 아직 완전히 꺾이지 않았기 때문입니다.
양적 연구에서 가장 기본적인 모멘텀 공식은 지난 d일 동안의 평균 수익률을 계산하는 것입니다. E(i) = (1/d) x Σ R(i,s). 여기서 d는 되돌아볼 일수이고, R(i,s)는 s일의 계약 i의 수익률입니다.
2.2 평균 회귀 신호
평균 회귀 신호는 자산이 "공정 가치"에서 얼마나 벗어났는지 측정합니다.
이 이론의 핵심 논리는 관련 자산 간의 가격 비율이 안정적이어야 한다는 것입니다. 이 관계가 깨지면 회귀의 힘이 작용하여 가격을 다시 원래대로 되돌릴 것입니다.
폴리마켓(Polymarket)의 예를 들어보겠습니다. "트럼프가 대통령 선거에서 승리한다"와 "공화당이 대통령 선거에서 승리한다"라는 두 가지 계약이 있다고 가정해 봅시다. 일반적으로 이 두 확률은 높은 상관관계를 보여야 합니다(트럼프가 공화당 후보이기 때문입니다). 만약 어느 날 "트럼프가 승리할 확률"이 10%포인트 하락했는데, "공화당이 승리할 확률"은 2%포인트만 하락했다면, 이는 평균 회귀의 강력한 신호입니다. 시장 가격이 잘못 책정되었고, 결국에는 재조정될 것이라는 의미입니다.
평균 회귀 신호는 고무줄과 같습니다. 더 멀리 늘릴수록 더 강하게 되돌아옵니다. 하지만 고무줄도 끊어질 수 있다는 점을 명심해야 합니다. 따라서 평균 회귀 신호는 단독으로 사용하기보다는 다른 신호들과 함께 활용해야 합니다.
2.3 변동성 신호
변동성 신호는 내재 변동성(시장의 예상 변동성)과 실현 변동성(실제 변동성) 간의 차이를 살펴봅니다.
이러한 차이가 발생하는 이유는 무엇일까요? 변동성을 매도하는 투자자(예: 옵션 매도자)는 상당한 극단적 위험(테일 리스크)을 감수해야 하기 때문입니다. 이들은 극단적인 상황에 대비하기 위한 추가적인 보상이 필요합니다. 이는 보험 회사가 예상 실제 지급액보다 항상 높은 보험료를 책정하는 것과 유사합니다.
폴리마켓에서 변동성 신호는 다음과 같이 이해할 수 있습니다. 계약 가격이 0.45달러에서 0.55달러 사이에서 크게 변동하지만, 근본적인 변화(새로운 뉴스나 정책 변경 등)가 없다면, 이러한 "가짜 변동성" 자체가 신호입니다. 이는 시장 참여자들이 패닉에 빠지거나 흥분한 상태임을 나타내지만, 이러한 심리는 종종 과도하며 가격은 결국 적정 수준으로 돌아올 것임을 시사합니다.
2.4 요인 신호
요인 신호는 수십 년간의 학술 연구를 통해 확인된 체계적인 수익률 프리미엄입니다. 가장 잘 알려진 다섯 가지 요인은 다음과 같습니다.
값
• 모멘텀
• 낮은 변동성
나르다
• 품질
각 요소는 시장이 위험을 가격 책정할 때 인간 행동이나 시장 구조에 지속적으로 존재하는 결함을 나타냅니다.
예를 들어, "가치 요소"가 작용하는 이유는 인간이 본능적으로 트렌드를 쫓는 경향이 있기 때문입니다. 모두가 이야기하는 계약은 이미 가격이 완전히 반영된 경우가 많습니다. 반면에 아무도 주목하지 않는 "틈새 시장 계약"은 가격 차이가 발생할 가능성이 더 높습니다.
폴리마켓에서는 수천 명이 주목하는 인기 주문을 쫓기보다는 거래량은 적지만 펀더멘털이 변화하는 계약을 더 자세히 조사하는 데 시간을 투자해야 합니다. 이러한 이유로 저희는 사용자가 잠재적 알파 수익을 낼 수 있는 시장을 쉽게 찾을 수 있도록 변동성, 최신 시장 데이터, 거래량, 거래자 수 등의 지표를 insiders.bot 홈페이지에 추가했습니다.
2.5 미세구조 신호
미세구조 신호는 고빈도 거래자들이 선호하는 신호입니다. 이들은 주문장의 깊이 불균형, 호가 스프레드의 역동적인 변화, 그리고 거래량의 공격성을 분석합니다.
이러한 신호는 매우 짧은 시간, 보통 몇 분에서 몇 시간 정도만 효과적입니다. 하지만 이 신호는 매우 중요한 사실을 알려줄 수 있습니다. 바로 정보 우위를 가진 투자자들이 가격이 실제로 움직이기 전에 어디에서 포지션을 구축하고 있는지를 보여준다는 것입니다.
미세구조를 측정하는 데 가장 일반적으로 사용되는 지표 중 하나는 유효 확산입니다.
실질 스프레드 = 2 x |거래 가격 - 중간 가격|
실효 스프레드가 커질수록 시장 유동성이 떨어지고 거래 비용이 높아짐을 의미합니다. 실효 스프레드가 갑자기 확대되는 것은 종종 정보에 밝은 투자자들이 시장에 진입하고 있으며, 시장 조성자들이 스스로를 보호하기 위해 스프레드를 확대하고 있음을 나타냅니다.
또 다른 핵심 지표는 VPIN(거래량 동기화 정보 기반 거래 확률)입니다. 이 지표는 2012년 이즐리, 로페즈 데 프라도, 오하라 교수가 제안했습니다. VPIN은 매수량과 매도량의 불균형을 분석하여 시장에서 "정보 기반 거래자"에 의해 주도되는 거래량을 추정합니다.

VPIN의 계산 방식은 사실 꽤 직관적입니다. 거래량을 고정된 크기의 "버킷"(예: 1,000건의 거래당 하나의 버킷)으로 나누고, 각 버킷에서 매수량과 매도량의 차이가 얼마나 큰지 확인하는 것입니다. 차이가 크다면 한쪽에서 일방적인 공세를 펼치고 있다는 의미이며, 이는 일반적으로 정보에 밝은 투자자들이 움직이고 있음을 나타냅니다.
VPIN이 갑자기 급증하는 것은 종종 누군가가 당신이 모르는 무언가를 알고 있다는 것을 의미합니다. 2010년 "플래시 크래시" 발생 몇 시간 전에도 VPIN은 이미 비정상적으로 급증하기 시작했습니다.
폴리마켓에서 스마트 머니의 온체인 행동은 가장 직접적인 미시 구조적 신호입니다. 과거 승률이 65%를 넘는 지갑이 갑자기 특정 계약에 큰 금액을 투자할 때, 이는 매우 가치 있는 신호입니다.
저희가 스마트머니 브라우저와 insiders.bot v1.2/v1.3 시그널에서 하는 일은 기본적으로 이러한 온체인 미세구조 시그널을 실시간으로 사용자에게 제공하는 것입니다.
이 다섯 가지 유형의 신호 중 어느 하나만으로는 체계적인 우위를 확보하기에 충분하지 않다는 점을 명심하십시오. 그것들은 단지 원자재일 뿐입니다.
다음으로, 가장 중요한 세 번째 부분인 원자재를 금으로 바꾸는 "조합 엔진"에 대해 알아보겠습니다.
제3부: 11단계 엔진 조합
이 부분이 기사 전체에서 가장 핵심적인 부분입니다. 이 11단계는 해당 기관에서 원시 신호 세트를 최적의 가중치 조합으로 변환하는 데 사용하는 전체 절차입니다.
이 11단계는 데이터 준비, 시장 잡음 제거, 고유한 이점 추출, 최종 가중치 할당의 네 단계로 나눌 수 있습니다.
배경 설명을 다시 한번 드리겠습니다. 신호가 N개 (예: 50개) 있다고 가정해 보겠습니다. 각 신호는 일정 기간 동안 수익률 데이터 (즉, 매일 얼마나 벌거나 잃었는지)를 생성했습니다.
이 통합 시스템의 역할은 이러한 과거 데이터를 기반으로 각 신호에 얼마나 많은 자본 가중치를 할당해야 하는지 계산하는 것입니다.

1단계: 데이터 준비
이 단계의 목표는 모든 신호를 공정한 조건에서 확보하는 것입니다.
1단계: 각 신호에 대한 과거 성능 데이터를 수집합니다.
이것이 가장 기본적인 단계입니다. 각 과거 기간 동안 각 신호에 대한 실제 수익 또는 손실을 기록해야 합니다.
예를 들어, 모멘텀 신호는 지난 30일 동안 1일차에 2% 상승, 2일차에 1% 하락, 3일차에 0.5% 상승 등을 보여줄 수 있습니다. 이 모든 데이터를 기록하세요. 각 신호에는 이러한 데이터 열이 있어야 합니다.
수학적으로 말하면, 이는 각 시간 간격 s에서 각 신호 i에 대한 보상 R(i,s)를 수집하는 것을 의미합니다.
2단계: 체계적 편차 제거(평균값 제거)
각 신호의 과거 수익률에서 해당 신호 자체의 평균 수익률을 뺍니다.
왜 이렇게 하는 거죠?
예를 들어.
• 예를 들어 "저점 매수" 신호가 발생했다고 가정해 보겠습니다. 지난 1년 동안 전체 암호화폐 시장이 급등했으므로 이 신호는 상당한 수익을 낸 것처럼 보입니다.
하지만 이것이 정말 신호 때문일까요? 꼭 그렇지는 않습니다. 다른 어떤 전략이라도 강세장에서는 수익을 낼 수 있을 것입니다. 평균값을 빼야만 "전체 시장 추세를 배제한 후" 신호의 진정한 예측력을 확인할 수 있습니다.
구체적인 공식은 다음과 같습니다: X(i,s) = R(i,s) - mean(R(i)).
3단계: 각 신호의 변동성을 계산합니다.
이 단계에서는 각 신호의 반환값이 얼마나 변동적인지 측정합니다.
하나의 신호로 하루 평균 0.1%의 수익을 올릴 수도 있지만, 때로는 5%의 수익을 올릴 수도 있고, 때로는 4%의 손실을 볼 수도 있습니다.
또 다른 신호는 일일 평균 수익률 이 0.1% 이지만 변동 범위가 -0.5%에서 +0.7% 사이라는 점입니다.
두 신호의 평균 수익률은 같지만, 두 번째 신호가 훨씬 더 "안정적"이고 신뢰할 만합니다.
변동성은 이러한 "안정성"을 정량화하는 데 사용됩니다.
구체적인 공식은 다음과 같습니다: σ(i)² = (1/M) x Σ X(i,s)².
4단계: 표준화 처리
2단계 결과를 3단계의 변동성으로 나눕니다.
이 단계가 필요한 이유는 무엇일까요? 바로 각 신호가 서로 다른 "단위"를 사용하기 때문입니다. 모멘텀 신호는 백분율로 계산될 수 있고, 미세구조 신호는 베이시스 포인트(0.01%)로 계산될 수 있으며, 변동성 신호는 절댓값으로 계산될 수 있습니다. 이러한 신호들을 직접 비교하는 것은 사과와 오렌지의 크기를 비교하는 것과 같아서 무의미합니다.
표준화는 모든 신호를 동일한 척도로 맞춥니다. 마치 미국 달러, 유로, 엔화를 동일한 통화로 환산하여 공정한 비교를 가능하게 하는 것과 같습니다.
구체적인 공식은 다음과 같습니다: Y(i,s) = X(i,s) / σ(i).
2단계: 시장 잡음 제거
이 단계의 목표는 "시장의 전반적인 상승과 하락"을 각 신호의 성과와 분리하여 신호 자체의 진정한 잠재력만 남기는 것입니다.
5단계: 샘플 외 분할
가중치를 계산할 때는 과거 데이터만 사용하고 가장 최근 관측치는 제외합니다.
이 단계는 "과적합"을 방지하기 위한 것입니다.
과적합이란 무엇일까요? 예를 들어, 한 학생이 지난 10년간의 기출문제를 모두 암기하고 모의고사에서 매번 만점을 받았습니다. 하지만 실제 시험에 새로운 문제가 나오면 전혀 답을 맞추지 못합니다. 그는 "지식을 이해한" 것이 아니라 "답을 암기한" 것뿐입니다.
양적 거래에서 과적합은 훨씬 더 위험합니다. 모델이 과거 데이터에서는 완벽한 성능을 보일 수 있지만, 실제 거래에서는 기대 이하의 성능을 보일 수 있습니다. 표본 외 분할(out-of-sample splitting)은 모델이 "과거를 암기"하는 것이 아니라 "패턴을 학습"하도록 보장합니다.
구체적인 단계는 다음과 같습니다.
데이터를 두 부분으로 나누세요.
• 데이터의 처음 80%를 사용하여 모델을 학습시킵니다(가중치를 계산합니다).
• 데이터의 마지막 20%를 사용하여 모델이 실제로 효과적인지 검증하십시오.
만약 모델이 데이터의 마지막 20%에서도 수익을 창출할 수 있다면, 그것은 모델이 실제 패턴을 학습했다는 것을 의미합니다.
6단계: 횡단면적 의미 완화
각 시점에서 해당 시점의 모든 신호의 평균 성능을 각 신호의 성능에서 뺍니다.

이 단계는 매우 중요하며, 구체적인 시나리오를 통해 설명하겠습니다.
연준이 오늘 갑자기 금리 인하를 발표했다고 가정해 봅시다. 시장 전체가 급등합니다. 50개의 신호가 동시에 "매수" 주문을 내고, 각 신호가 수익을 내는 것처럼 보일 수 있습니다.
여러 단면의 평균값을 계산하지 않으면 50개의 신호가 모두 정확하다고 생각할 수 있습니다. 하지만 실제로는 "밀물이 모든 배를 띄운다"는 속담처럼 시장 전체가 상승하는 추세이기 때문에 신호의 정확도와 관계없이 수익을 낼 수 있는 것입니다. 이는 신호 자체의 능력이 아니라 시장이 주는 선물과 같은 것입니다.
모든 신호의 평균 성과를 빼고 나서야 진실을 알 수 있습니다. 모두가 수익을 내는 날에 어떤 신호가 다른 신호보다 더 많은 수익을 내는지, 모두가 손실을 보는 날에 어떤 신호가 다른 신호보다 손실을 덜 보는지 말입니다. 이러한 "상대적 성과"가 바로 신호의 진정한 능력입니다.
보다 구체적으로: Λ(i,s) = Y(i,s) - (1/N) x Σ Y(j,s).
*2단계의 "평균 제거"와 6단계의 "횡단면 평균 제거"는 서로 다릅니다. 2단계는 각 신호의 시계열에서 평균을 제거하는 단계(장기 추세 제거)이고, 6단계는 각 시점의 모든 신호에 대한 평균을 제거하는 단계(전반적인 시장 효과 제거)입니다. 두 단계 모두 필수적입니다.
7단계: 최종 데이터 정리
이는 최종 데이터 정제 단계입니다. 이 단계를 통해 데이터 시퀀스에 "예상 정보"가 남아 있지 않도록 합니다.
미래예측정보란 무엇일까요? 이는 의사결정을 내리는 시점에는 도저히 알 수 없는 미래의 데이터를 말합니다. 예를 들어, 금요일 종가를 바탕으로 월요일에 의사결정을 내릴 수는 없습니다. 이는 상식처럼 들리지만, 복잡한 데이터 처리 워크플로우에서는 이러한 종류의 "데이터 유출"이 생각보다 훨씬 더 자주 발생할 수 있습니다.
3단계: 독립적인 이점 확보
이 단계는 전체 엔진의 핵심입니다. 각 신호의 고유한 예측 능력을 추출하고 다른 신호와 중복되는 부분을 제거하는 것이 이 단계의 역할입니다.
8단계: 예상 수익률 계산
이동평균을 사용하여 미래에 각 신호가 기여할 것으로 예상되는 정도를 계산하십시오.
구체적으로, 이는 최근 d일 동안 각 신호의 평균 수익률을 미래 성과 예측값으로 사용하는 것을 의미합니다. 그런 다음 이 예측값을 표준화(변동성으로 나눔)하여 서로 다른 신호의 예상 수익률을 직접 비교할 수 있도록 합니다.
공식으로 말하자면:
E(i) = (1/d) x Σ R(i,s)
· E_norm(i) = E(i) / σ(i).
9단계: 독립 잔차 추출(직교화)
이는 전체 11단계 중 가장 중요한 단계입니다.
두 개의 신호가 있다고 가정해 봅시다.
신호 A는 "일기 예보를 확인하세요"라는 의미입니다.
• 신호 B는 "보행자가 우산을 가지고 있는지 확인하라"는 뜻입니다.
이 두 가지 신호 모두 오늘 비가 올지 여부를 예측할 수 있습니다.
문제는 행인이 일기예보를 확인했기 때문에 우산을 들고 있을 수도 있다는 점입니다. 따라서 신호 A와 신호 B 사이에는 정보가 상당히 중복됩니다. 두 신호를 동시에 사용하면 두 개의 독립적인 신호라고 생각할 수 있지만, 실제로는 하나의 신호(일기예보)만 두 번 전달되는 셈입니다.
9단계의 과제는 이러한 정보 중복을 제거하는 것입니다.
이 과정은 정확히 어떻게 진행될까요? 각 신호의 예상 반환값 E_norm(i)에 대해, 다른 모든 신호의 과거 데이터 Λ(i,s)를 사용하여 회귀 분석을 수행합니다. 회귀 분석이란 다른 신호를 이용하여 해당 신호를 "설명"하는 것을 의미합니다. 설명 가능한 부분, 즉 다른 신호와 겹치는 부분은 제거하고, 설명할 수 없는 부분, 즉 해당 신호만의 고유한 기여 부분은 유지합니다.
이 "설명할 수 없는 부분"을 수학에서는 잔차라고 하며 ε(i)로 표기합니다.
선형대수를 공부했다면, 이것은 그람-슈미트 직교화의 응용입니다. 공부하지 않았더라도 괜찮습니다. 다만 한 가지만 기억하세요. 9단계는 각 신호의 진정으로 독특하고 대체 불가능한 예측력을 찾는 것입니다.
4단계: 최종 가중치 할당
10단계: 최적 가중치 설정
가중치를 계산하는 공식은 w(i) = η x ε(i) / σ(i)입니다.
이 공식은 각 신호의 가중치가 독립적인 기여도 ε(i)(9단계에서 계산됨)를 변동성 σ(i)(3단계에서 계산됨)로 나눈 다음 스케일링 인자 η를 곱한 것과 같다고 명시합니다.
이것은 무엇을 의미할까요? 엔진은 독립적으로 상당한 기여를 하고 안정적인 성능을 보이는 신호에 자동으로 더 높은 가중치를 부여합니다. 반대로 잡음이 많거나 단순히 추세를 따르는 신호는 자동으로 가중치가 낮아집니다.
이 모든 과정은 수학적으로 자동으로 처리되므로 주관적인 판단이 필요하지 않습니다. "이 신호의 비율을 어떻게 해야 할까?"라는 질문을 자신의 감정에 따라 결정할 필요가 없습니다. 공식이 최적의 답을 알려줄 것입니다.
11단계: 정규화
마지막 단계는 모든 가중치의 절댓값 합이 1이 되도록 스케일링 계수 η를 조정하는 것입니다.
이렇게 하면 총 자본 배분이 100%가 되어 자신도 모르게 레버리지를 사용하는 것을 방지할 수 있습니다. 이 단계를 거치지 않으면 자본 배분이 150%까지 올라가 1.5배 레버리지로 거래하고 있다는 사실조차 인지하지 못할 수 있습니다.
수학적 용어로 표현하면 다음과 같습니다. η가 Σ|w(i)| = 1이 되도록 합니다.
이 11단계의 최종 결과는 N개의 신호 각각의 최종 가중치입니다. 이러한 약한 신호들을 가중치에 따라 결합하면 높은 승률과 높은 신뢰도를 가진 단일 결과인 메가 알파를 얻게 됩니다.
고급 연습 2:
현재 사용 중인 시그널 스택에서 이 프로그램을 실행해 보면, 어떤 시그널이 높은 가중치를 받고 어떤 시그널이 낮은 가중치를 받는 결과에 놀라지 않으시겠습니까? 그 결과는 여러분이 실행 중인 시스템의 독립성 구조를 얼마나 잘 이해하고 있는지를 보여줄 것입니다.
이러한 행렬 연산의 논리를 심도 있게 이해하고 싶다면 MIT 무료 온라인 강좌 "선형대수학"의 직교화 챕터를 시청하는 것을 강력히 추천합니다. 길버트 스트랭 교수가 매우 명확하게 설명해 줍니다.
제4부: 독립의 함정
조합 엔진은 문제를 해결합니다. 이 문제는 한 번에 하나의 신호만 볼 때는 보이지 않지만, 수학적 원리를 이해하고 나면 어디에나 존재한다는 것을 알게 됩니다.
파트 1에서 언급했던 사전 예방적 관리의 기본 원칙으로 돌아가 보겠습니다.
IR = IC x √N
이 세 글자가 무엇을 의미하는지 기억하시나요? IR은 전체 시스템의 "위험 조정 수익률"(즉, 전략의 안정성)을 나타냅니다. IC는 개별 신호의 평균 정확도입니다. N은 포트폴리오에 있는 독립 신호의 개수입니다.
이제 많은 사람들이 간과하는 핵심 단어 하나를 강조하고 싶습니다. 바로 '독립성'입니다.
여기서 N은 시그널 스택에 있는 전체 시그널 개수가 아닙니다. 유효하고 독립적인 시그널의 개수입니다. 이 두 숫자는 상당히 다를 수 있습니다.
왜냐하면 신호들은 "은밀하게" 서로 연결될 수 있기 때문입니다.
모멘텀 신호와 평균 회귀 신호는 본질적으로 완전히 반대되는 것처럼 보입니다(하나는 가격 상승을 추종하고, 다른 하나는 저점에서 매수합니다). 그러나 특정 시장 상황에서는 두 신호가 동일한 거시 경제 뉴스에 동시에 같은 방향으로 반응할 수 있습니다.
예를 들어, 연준이 갑자기 금리를 인상하면 모멘텀 신호는 "추세는 하락세이므로 매도하라"고 말하고, 평균 회귀 신호 또한 "평균에서 너무 멀리 벗어났지만 방향은 하락세이다"라고 말합니다.
지금 이 순간, 겉보기에는 서로 독립적인 두 신호가 사실은 동일한 관점을 표현하고 있습니다.
두 관점에 동일한 비중을 두면, 서로 다른 두 관점 사이에 위험을 분산시키고 있다고 생각할 수 있습니다. 하지만 실제로 는 같은 관점에 대한 투자를 두 배로 늘리는 셈입니다.

이것이 바로 3부의 6단계(횡단면 평균 빼기, 즉 "모든 신호가 함께 상승하는" 효과를 제거하기 위해 각 시점에서 모든 신호의 평균 성능을 빼는 단계)와 9단계(독립 잔차 추출, 즉 회귀 분석을 통해 신호 간 정보 중복을 제거하고 각 신호의 고유한 기여도만 남기는 단계)가 매우 중요한 이유입니다. 이 단계들의 목적은 신호 간에 숨겨진 공통 요소를 식별하고 제거하는 것입니다.
50개의 관련 신호를 실행한다고 해서 10~15개의 독립적인 신호를 사용할 때와 같은 분산 효과만 얻을 수 있는 것은 아닙니다. 신호가 진정으로 독립적인 정보원을 기반으로 구축되고 조합 엔진이 제대로 작동할 때 비로소 50개 신호 모두의 이점을 최대한 활용할 수 있습니다.
이것이 실제로 어떤 의미를 갖는가?

• 한 트레이더가 20개의 독립적인 신호를 활용하고 있다고 가정해 보겠습니다. 이 트레이더는 20개의 독립적인 신호를 기반으로 포지션 규모를 계산합니다. 그러나 신호들 사이에 숨겨진 상관관계 때문에 실제로 유효한 독립적인 신호는 6개뿐입니다.
20개의 독립적인 신호에 의해 뒷받침되는 포지션 규모는 6개의 신호에 의해서만 뒷받침되는 포지션 규모보다 훨씬 큽니다. 얼마나 클까요? 20/6 ≈ 3.3배입니다. 그의 실제 레버리지는 그가 생각했던 것보다 3배 이상 큽니다.
이러한 레버리지 불균형이 바로 대부분의 시스템적 전략이 실패하는 진짜 이유입니다. 트레이더는 시장 방향은 맞았지만, 규모는 잘못 판단했습니다. 시장 상승을 정확하게 예측했지만, 너무 많은 금액을 투자한 것입니다. 일반적인 조정만으로도 손실을 볼 수 있습니다.
조합 엔진은 정직한 계산을 강제합니다. 사용자가 스스로를 속이는 것을 허용하지 않습니다. 신호 스택의 진정한 독립성 구조가 어떤 모습인지 알려줍니다. 그런 다음 사용자의 추측이 아닌 현실에 기반하여 가중치를 할당합니다.
정확하게 분석한 거래임에도 불구하고 지속적으로 손실을 보는 트레이더들은 거의 예외 없이 측정하지 않은 상관관계 때문에 손실을 봅니다. 그들은 확신을 가질 만한 세 가지 독립적인 이유가 있다고 생각하지만, 실제로는 단 하나의 이유가 세 번 반복될 뿐입니다. 하지만 그들은 세 가지 이유를 바탕으로 포지션 규모를 조정하고 있는 것입니다.
이 통합 엔진은 구조적으로 이러한 고장 원인을 제거합니다.
고급 연습 3:
현재 사용 중인 모든 신호를 쌍으로 묶어 상관 계수를 계산하세요. 파이썬의 ` numpy.corrcoef()` 함수를 사용할 수 있습니다. 어떤 신호 쌍의 상관 계수가 0.5를 초과하면 수학적으로 독립적이지 않은 것이므로 신호 스택을 재검토해야 합니다.
마르코스 로페스 데 프라도의 저서 *금융 머신러닝의 발전(Advances in Financial Machine Learning)*을 읽어보시기를 추천합니다. 특히 특징 중요도와 직교화에 관한 장을 읽어보세요. 이 책은 현대 양적 방법론을 공부하는 데 필수적인 책입니다.
파트 5: Polymarket에 구현하기
처음 네 섹션은 모두 주식 및 멀티에셋 시장에서의 체계적인 거래라는 맥락 안에서 구성되었습니다. 다행히도 이러한 수학적 원리는 시장 예측에도 직접 적용할 수 있습니다. 단지 "기대 수익률"에 대한 신호를 결합하는 대신 "기대 확률"에 대한 신호를 결합하는 것으로 대체하면 됩니다.
예측 시장에서 각 신호는 수익률 추정치를 생성하는 것이 아니라 암묵적인 확률 추정치를 생성합니다.
5.1 확률 신호의 다섯 가지 유형
첫째, 플랫폼 간 가격 차이를 활용하는 신호입니다. 예를 들어, 폴리마켓(Polymarket)에서 특정 이벤트의 당첨 확률이 0.45달러인데, 베트페어(Betfair)에서 같은 이벤트의 당첨 확률이 52%로 나온다면, 이 7%포인트의 가격 차이가 바로 신호입니다. 두 플랫폼이 동일한 이벤트에 대해 서로 다른 가격을 제시한다면, 적어도 한쪽은 잘못된 가격을 제시하고 있는 것입니다.
둘째, 보정 신호: 4억 건의 폴리마켓 과거 거래 데이터를 분석한 결과, 체계적인 편향이 발견되었습니다. 가격이 5%에서 15% 사이인 계약 중 최종적으로 '예'로 확정된 경우는 4%에서 9%에 불과했습니다. 이는 시장이 발생 확률이 낮은 사건의 발생 확률을 체계적으로 과대평가한다는 것을 의미합니다. 이러한 편향은 안정적이고 반복 가능하므로 유효한 신호입니다.
셋째, 베이지안 업데이트 신호: 이는 양적 거래의 핵심 도구입니다. 그 핵심 질문은 새로운 데이터를 얻었을 때 기존의 믿음을 어떻게 정확하게 업데이트해야 하는가입니다.

베이지안 업데이트에 대해 구체적인 예를 들어 설명해 드리겠습니다.
"이번 달에 특정 의회 법안이 통과될까요?"라는 폴리마켓 계약을 따르고 있다고 가정해 보겠습니다. 현재 시장 가격은 0.40달러인데, 이는 시장에서 법안 통과 확률이 40%라고 판단하고 있음을 의미합니다. 이것이 바로 여러분의 사전 확률입니다.
갑자기 뉴스 기사가 터져 나왔다. 그 법안이 핵심 상원의원으로부터 공개적인 지지를 받았다는 내용이었다.
확률을 단순히 80%로 바꿀 수는 없습니다. 정확한 계산을 위해서는 베이즈 정리를 사용해야 합니다.
베이즈 정리는 다음과 같습니다.
P(통과|지지) = P(지지|통과) x P(통과) / P(지지)
쉽게 말해서:
"상원의원이 공개적으로 법안을 지지한다는 가정 하에 법안이 통과될 확률" = "실제로 법안이 통과될 경우 상원의원이 공개적으로 법안을 지지할 확률" x "법안 통과의 사전 확률" / "상원의원이 공개적으로 법안을 지지할 총 확률".

다음과 같이 추정한다고 가정해 보겠습니다.
• 만약 법안이 통과된다면, 이 상원의원이 공개적으로 지지할 확률은 80%입니다 (그는 보통 확신이 있을 때만 의견을 표명하기 때문입니다).
• 만약 법안이 통과되지 못하면, 이 상원의원이 공개적으로 법안을 지지할 확률은 20%입니다 (그는 가끔씩 잘못된 편을 드는 경향이 있습니다).
법안 통과 사전 확률은 40%입니다.
그래서:
• P(지지) = 0.80 x 0.40 + 0.20 x 0.60 = 0.32 + 0.12 = 0.44
• P(통과|지지) = 0.80 x 0.40 / 0.44 = 0.32 / 0.44 = 72.7%
따라서 이 소식을 접한 후에는 법안 통과 확률 추정치를 40%에서 72.7%로 상향 조정해야 합니다. 시장 가격이 0.50달러로 유지된다면 22.7%의 유리한 위치를 확보하게 됩니다.
베이지안 업데이트의 핵심은 새로운 확률을 "추측"하는 것이 아니라 수학을 이용하여 정확하게 계산한다는 점입니다. 모든 판단은 증거에 기반합니다.
넷째, 미세구조 신호: VPIN(2부에서 논의한 "정보 거래 확률" 지표로, 매수량과 매도량 간의 불균형을 분석하여 정보 거래자가 행동하는지 여부를 판단함)과 유효 스프레드를 사용하여 정보 주문 흐름의 방향을 기반으로 확률을 추정합니다.
다섯째, 모멘텀 신호: 계약이 성립될수록 가격 변동률과 방향이 확률을 시사합니다.
5.2 신호부터 베팅까지: 전체 과정
이러한 암묵적 확률 추정치 각각은 3부의 11단계 조합 엔진에 설명된 대로 정확하게 실행됩니다. 출력은 단일 가중 조합 확률 추정치입니다. 이 추정치에는 각 신호의 독립적인 기여도를 기반으로 수학적으로 최적의 가중치가 할당됩니다(9단계의 직교화를 기억하시나요? 즉, 신호 간의 정보 중복을 제거하고 고유한 부분만 유지하는 것입니다).
그 종합 견적과 현재 폴리마켓 가격의 차액이 바로 여러분의 경쟁력입니다.

5.3 켈리 기준: 얼마를 걸어야 할까요?
이제 유리한 위치에 서게 되었으니, 가장 중요한 질문은 바로 이것입니다. 얼마를 걸어야 할까요?
너무 적게 걸면 유리한 위치를 놓치고 충분한 수익을 올리지 못하게 됩니다. 반대로 너무 많이 걸면 한 번의 잘못된 판단으로 모든 것을 잃을 수도 있습니다.
해당 기관은 켈리 기준(Kelly Criterion)을 사용합니다. 표준 켈리 기준은 다음과 같습니다.
f_kelly = (pxb - q) / b
여기서 p는 예상 승리 확률(조합 확률)이고, q = 1 - p는 패배 확률이며, b는 배당률입니다.
폴리마켓에서는 배당률 b를 가격에서 직접 계산할 수 있습니다. b = (1 / 시장 가격) - 1. 예를 들어 시장 가격이 0.40달러인 경우 배당률 b = (1/0.40) - 1 = 1.5입니다.
포트폴리오 모델에서 실제 확률이 60%(p = 0.60)이고 시장 가격이 0.40달러(배당률 b = 1.5)라고 알려준다고 가정해 봅시다. 그러면 표준 켈리 기준에 따라 다음과 같이 베팅하는 것이 좋습니다.
f_kelly = (0.60 x 1.5 - 0.40) / 1.5 = (0.90 - 0.40) / 1.5 = 0.50 / 1.5 = 자금의 33.3%.
하지만 표준 켈리 기준에는 치명적인 가정이 있습니다. 바로 승률 추정치가 100% 정확하다고 가정하는 것입니다. 현실적으로 추정치에는 항상 어느 정도의 오차가 존재합니다. 따라서 금융기관들은 "불확실성 페널티"를 적용한 경험적 켈리 기준을 사용합니다.
f_empirical = f_kelly x (1 - CV_edge)
여기서 CV_edge는 에지 예측치의 변동 계수입니다. 이는 예측치의 불확실성을 측정하는 지표입니다. CV_edge 값이 클수록 불확실성이 커지며, 공식은 자동으로 베팅 금액을 줄입니다.
CV_edge는 어떻게 계산하나요? 몬테카를로 시뮬레이션을 사용할 수 있습니다. 간단히 말해, 모델을 수천 번의 시뮬레이션에 적용하여 다양한 시나리오에서 예상 이점이 얼마나 변하는지 확인하는 것입니다. 변화가 클수록 CV_edge 값이 높아지고, 베팅 금액을 줄여야 합니다.
위의 예시를 계속해서 살펴보겠습니다. 만약 CV_edge가 0.3(즉, 추정치에 30%의 불확실성이 있다는 의미)이라면, 경험적 켈리 기준에 따르면 다음과 같이 베팅하는 것이 좋습니다.
f_empirical = 33.3% x (1 - 0.3) = 33.3% x 0.7 = 23.3%의 자금입니다.
실제로 많은 기관에서는 켈리 마진의 절반만 사용하는데, 이는 2로 나눈 값으로 약 12%에 해당합니다. 장기적으로 볼 때 완전히 손실을 보는 것보다는 약간 적은 수익을 내는 것이 훨씬 낫기 때문입니다.

5.4 폴리마켓의 전체 거래 파이프라인

종합적으로 보면 전체 워크플로는 다음과 같습니다.
1. 5개 이상의 입력 신호, 각 신호는 암묵적인 확률 추정치를 생성합니다.
2. 11단계 통합 엔진을 통해 처리되었습니다.
3. 가중 조합 확률을 하나로 출력합니다.
4. 현재 시장 가격과 비교하여 경쟁 우위(Edge)를 계산하십시오.
5. 경험적 켈리 기준을 사용하여 베팅 규모를 결정합니다.
6. 대량 주문이 시장 가격에 미치는 영향을 줄이기 위해 VWAP(거래량 가중 평균 가격)를 사용하여 실행을 최적화하십시오.
7. VPIN 변경 사항을 실시간으로 모니터링하고 정보에 밝은 거래자들이 더욱 활발해지면 전략을 즉시 조정하십시오.
이 프레임워크는 시장 예측에 특히 유용한데, 그 이유는 간단합니다. 대부분의 경쟁업체는 단일 모델, 단일 데이터 소스, 단일 확률 추정치를 사용하여 거래하고 있기 때문입니다. 반면, 당신은 이제 여러 개의 약한 신호를 하나의 강력한 신호로 결합하는 방법을 알고 있습니다. 이것이 바로 당신의 구조적 이점입니다.
고급 연습 4:
관심 있는 Polymarket 계약을 선택하세요. 최소 세 가지 관점(예: 플랫폼 간 가격, 과거 데이터, 최근 뉴스)에서 해당 계약의 확률을 추정해 보세요. 그런 다음 가중 평균을 계산하고, 종합 추정치와 현재 시장 가격 간의 차이가 있는지 확인하세요.
그렇다면 축하합니다! 방금 알파 조합의 간소화된 버전을 수동으로 완성하셨습니다.
에드워드 토프의 저서 *모든 시장을 위한 사나이*를 읽어보시기를 추천합니다. 토프는 켈리 기준을 투자에 적용한 선구자이며, 이 책은 그가 카지노와 월스트리트에서 어떻게 수학을 이용해 돈을 벌었는지 아주 쉽게 설명합니다.
제6부: insiders.bot을 사용하여 이 시스템 구현하기
이쯤 되면 이런 생각이 들 수도 있습니다. "이 시스템의 논리는 이해했는데, 이걸 처음부터 직접 어떻게 만들 수 있을까?"
다행인 점은, 처음부터 다시 시작할 필요가 없다는 것입니다.
insiders.bot(@insidersdotbot)을 개발하는 과정에서 이 기사에 언급된 "능동적 관리의 기본 법칙"(즉, IR = IC x √N , 전체 시스템의 성능은 단일 신호의 정확도에 독립 신호 수의 제곱근을 곱한 값과 같다)이 저희에게 많은 영감을 주었습니다.

지금 바로 시작할 수 있는 세 가지 단계를 소개합니다.
1단계: 스마트 머니 브라우저를 사용하여 신호 원자재를 수집하세요.
insiders.bot에서 스마트 머니 브라우저를 엽니다. 필터링 패널을 사용하여 승률, 총 손익, 거래 빈도와 같은 지표를 기준으로 Polymarket에서 가장 실적이 좋은 지갑을 찾을 수 있습니다.
이러한 지갑에서 발생하는 모든 비정상적인 활동은 여러분에게 "미시구조적 신호"가 됩니다(2부에서 논의한 다섯 가지 신호 유형 중 다섯 번째 범주를 기억하시나요?). 단일 지갑에서 발생하는 신호는 약할 수 있지만(낮은 IC), 수십 개의 지갑을 동시에 추적하면 본문에서 언급한 "신호 조합"을 만들어낼 수 있습니다. 이것이 바로 능동적 자산 관리의 기본 법칙입니다. 즉, N이 클수록 IR이 높아집니다.
2단계: 지능형 신호 시스템을 사용하여 알파 조합을 구현합니다.
저희 스마트 시그널 시스템(SIGNALS 탭)은 기본적으로 알파 콤비네이션 엔진의 간소화된 버전입니다. 고품질 지갑에서 대규모 거래가 발생하면 시스템은 시그널을 생성하고 스마트 스코어를 사용하여 과거 승률, 총 손익, 베팅 안정성, 카테고리 성과, 포지션 규모 등 여러 요소를 기반으로 강도 등급을 제공합니다.
낮음 : 기본 기준은 충족하지만 거래자의 이점은 평균 수준입니다. IC 신호가 낮으므로 이를 조합하려면 더 많은 신호가 필요합니다.
중급 : 뛰어난 실적을 통해 변함없는 헌신을 입증합니다. 중급 IC 신호에 적합하며, 적절한 구성이 권장됩니다.
높음 : 최고 실적을 내는 지갑에서 발생하는 고위험 거래. 높은 IC 신호에 따라 조합 엔진은 높은 가중치를 부여합니다.
이 점수 시스템은 3부의 11단계 엔진 중 10단계(최적 가중치 설정, 즉 각 신호의 독립적인 기여도와 안정성을 기반으로 자금을 배분하는 단계)와 본질적으로 동일한 작업을 수행합니다. 즉, 여러 차원에 대한 종합적인 평가를 바탕으로 각 신호에 서로 다른 가중치를 할당하는 것입니다.
3단계: 카피 트레이딩 도구를 사용하여 켈리 기준을 실행합니다.
높은 등급 신호를 받으면 당사의 자동 카피 트레이딩 도구를 사용하여 비례 또는 고정 금액 카피 트레이딩을 설정할 수 있습니다.
5부에서 다룬 경험적 켈리 공식(f_empirical = f_kelly x (1 - CV_edge))을 기억하세요. 즉, 불확실성에 따라 베팅 비율을 낮춰야 한다는 뜻입니다. 추정치가 불확실할수록 베팅 금액은 줄여야 합니다.
낮은 등급 신호가 나타나면 포지션을 줄이십시오.
높은 등급을 나타내는 신호가 보이면 포지션을 적당히 늘리는 것이 적절합니다. 감정이 아닌 수학적 원리에 따라 결정을 내리세요.
결론
우리가 처음 제기했던 질문으로 돌아가 봅시다.
단일 신호는 미약합니다. 완벽한 신호를 찾는 것은 완전히 잘못된 생각입니다.
능동적 관리의 기본 법칙(IR = IC x √N)은 여러 개의 약하고 독립적인 신호를 결합하는 것이 하나의 강력한 신호를 찾는 것보다 더 효과적이라는 것이 수학적으로 증명되었습니다. 실제로 독립적인 신호의 개수가 많아질수록 정보 비율은 제곱근에 비례하여 증가합니다.
11단계 알파 조합 엔진은 최적의 가중치를 계산하는 정확한 방법을 제공합니다. 이러한 가중치는 각 신호의 독립적인 기여도를 반영하고, 노이즈를 억제하며, 신호 간의 공통 분산을 제거합니다.
이 프레임워크를 예측 시장에 적용하면 5개 이상의 암묵적 확률 신호를 하나의 통합 추정치로 변환할 수 있습니다. 이 추정치는 개별 구성 요소보다 더 정확한 것으로 입증되었습니다.
직위 관리를 위한 켈리 기준과 함께 사용하면, 결과적으로 얻어지는 직위는 당신이 실제로 가져야 할 자신감의 정도를 정확하게 반영하며, 당신이 느끼는 자신감의 정도를 반영하지 않습니다.
복리 이자의 장기적인 이점은 당신이 실제로 알고 있는 사실에 가장 정직한 모델을 기반으로 합니다.
마지막으로, 여러분께서 다음 질문에 대해 생각해 보시기 바랍니다.
수백 개의 신호를 결합하는 기관 트레이딩 데스크조차 0.05에서 0.15 사이의 정보 계수밖에 달성하지 못한다면, 단일 모델만으로 높은 신뢰도로 꾸준히 승자를 가려낼 수 있다고 주장하는 시스템은 과연 얼마나 믿을 만한 것일까요?
심화 학습 자료 및 참고 문헌
이 주제에 대해 더 자세히 알아보고 싶으시다면, 다음과 같은 고급 자료들을 참고하세요.
초급 수준:
하버드 통계학 110: 확률론 개론(무료 온라인 교재). 확률 이론의 기초를 다루며, 처음 6개 장만으로도 충분합니다.
에드워드 소프, 모든 시장을 섭렵한 남자. 켈리 기준의 선구자인 그의 자서전으로, 수학을 이용해 카지노와 월스트리트에서 어떻게 돈을 벌 수 있는지 일반인도 이해하기 쉽게 설명한다.
고급 레벨:
그리놀드 & 칸의 『액티브 포트폴리오 관리』는 양적 투자의 "바이블"로 불리며, 액티브 운용의 기본 법칙을 상세히 설명한다.
MIT 18.06 선형대수학. 길버트 스트랭 교수님의 명강의로, 직교화 개념을 이해하는 데 최고의 교재입니다.
상류층:
마르코스 로페스 데 프라도 저, 『금융 머신러닝의 발전』. 현대 정량적 방법론을 공부하는 사람이라면 반드시 읽어야 할 책으로, 특히 교차 검증, 특징 중요도, 직교화 관련 부분은 필독서입니다.
Easley, Lopez de Prado & O'Hara (2012), 고빈도 거래 환경에서의 유동성 독성 및 유동성, Review of Financial Studies. VPIN 지표에 관한 원 논문.


