암호화폐 투기에서 실제 돈을 투자하는 AI 실험: DeepSeek이 11%의 수익으로 일시적으로 승리한 반면 GPT-5는 큰 손실을 입었습니다.

암호화폐 시장에서 진행된 최초의 AI 실전 거래 실험에서 DeepSeek이 11%의 수익률로 1위를 차지했습니다. nof1 연구소가 주최한 Alpha Arena 대회는 6개 주요 LLM에 각각 10,000달러의 실제 자금을 제공해 암호화폐 선물 거래를 진행했습니다.

주요 결과

  • DeepSeek: 11% 이상 수익률로 1위
  • Claude: 약 10% 수익률로 2위
  • Grok: 약 2% 수익률로 3위
  • GPT-5: 4,051달러 손실로 최하위

흥미로운 관찰

  • Gemini는 64건으로 가장 많은 거래를 실행했으나 높은 수수료(600.42달러)로 손실 발생
  • 10월 20일 DeepSeek과 Grok은 40% 수익률 기록했으나 시장 하락으로 모두 하락
  • Claude는 가장 공격적인 거래 전략, Gemini는 고빈도 거래로 비용 관리 실패

시사점 AI 거래의 핵심은 추론 능력이 아닌 실행 능력에 있으며, 전략의 동질화가 시스템적 위험을 초래할 수 있습니다. 여러 AI가 유사한 전략을 공유할 경우 시장 변동 시 동시 매도로 인한 '플래시 크래시' 가능성이 제기됩니다.

이 실험은 AI가 암호화폐 시장을 재편할 잠재력을 보여주며, 앞으로 더 발전된 자동 거래 시스템의 등장이 예상됩니다.

요약

저자: JAE

얼마 전, 금융 시장 인공지능 연구에 주력하는 nof1 연구소는 트위터를 통해 획기적인 실험인 알파 아레나(Alpha Arena) 대규모 모델 트레이딩 테스트의 시작을 발표했습니다. 이 트윗은 트위터 안팎에서 1,400만 회 이상의 조회수를 기록했습니다.

Perp DEX의 선두주자인 Hyperliquid에서 진행된 이 실험은 6개의 주요 대형 언어 모델(LLM)을 실제 경쟁 거래 환경에 처음으로 적용했습니다. 각 모델에는 Perp를 독립적으로 거래하기 위해 10,000달러의 실질 자본이 할당되었습니다. 현재까지 DeepSeek은 약 11%의 수익률로 1위를 유지하고 있습니다.

LLM은 암호화폐 시장에서 첫 실사격 훈련을 실시했으며, DeepSeek이 현재 1위를 차지하고 있습니다.

알파 아레나의 중요한 의의는 기존 금융 AI 모델의 한계를 뛰어넘었다는 데 있습니다. 기존의 금융 AI 연구는 대부분 과거 백테스팅 환경에 국한되어 있어 거래 행동이 시장 가격에 실질적인 영향을 미치지 못했고, 모델은 정적인 데이터만을 기반으로 학습되었습니다. 이와는 대조적으로, 알파 아레나는 역동적인 제로섬 경쟁 환경을 조성하여 LLM(투자자)들이 변화하는 시장 가격과 유동성에 지속적으로 적응하고 실시간 의사 결정을 내릴 수 있도록 합니다. 이러한 패러다임의 전환으로 알파 아레나는 암호화폐 시장에서 AI의 "최초의 실전 훈련"으로 평가받고 있습니다.

테스트의 공정성을 보장하기 위해 nof1은 모든 모델에 동일한 프롬프트와 데이터를 제공했습니다. 즉, 모델의 성능은 주로 내재된 추론 아키텍처, 분석을 거래 지시로 변환하는 도구의 효율성, 그리고 위험을 독립적으로 관리하는 능력에 의해 결정됩니다.

현재 DeepSeek이 11%가 넘는 반품율로 1위를 차지했고, Claude가 약 10%의 반품율로 그 뒤를 이었습니다. Grok은 약 2%의 반품율로 3위로 떨어졌습니다. 다른 모델들은 모두 적자 상태입니다.

10월 20일, DeepSeek과 Grok은 약 40%의 수익률로 한때 1위를 차지했습니다. 그러나 시장 하락으로 인해 모든 모델이 집단적으로 하락했고, 수익률 또한 크게 감소했습니다. 이는 LLM이 아직 시장 상황을 제대로 판단하지 못하고 있음을 시사합니다.

그중 클로드는 가장 큰 손익을 기록했고 가장 공격적인 거래 전략을 구사했습니다. 제미니는 가장 많은 거래(64건)를 실행했고, 현재까지 가장 높은 거래 수수료인 600.42달러를 지불했습니다. 고빈도 거래를 수행하면서 비용 관리를 제대로 하지 못했습니다. GPT-5의 총 손실은 최대 4,051달러에 달했고, 계좌 자산 곡선은 지속적으로 하락하며 최하위를 기록했습니다.

그림: 알파 아레나 초기 결과 비교(10월 21일)

그림의 데이터는 기존 LLM 벤치마크 성과와 실제 거래에서의 순이익 사이에 명확한 차이가 있음을 보여줍니다. Finance Reasoning 및 AIME(수학)와 같은 벤치마크에서는 GPT-5와 Grok-4가 일반적으로 선두를 차지하며, 복잡한 금융 공식과 고급 수학을 처리하는 능력을 보여줍니다.

하지만 금융 시장은 단순히 정적인 수학적 추론만으로 운영되는 것이 아닙니다. 실시간 데이터, 시장 심리 분석, 그리고 유동성 변동을 아우르는 역동적인 시스템입니다. 알파 아레나(Alpha Arena) 라이브 트레이딩 대회에서 DeepSeek V3.1은 탁월한 성과를 보였습니다. 이는 LLM(투자자)의 수익 창출 핵심이 정적인 지식이나 복잡한 추론 점수가 아니라, 분석 결과를 실행 가능한 트레이딩 지침으로 전환하는 능력에 있음을 보여줍니다. DeepSeek V3.1은 낮은 거래량과 승률로 높은 수익률을 달성했으며, 이는 단 몇 번의 거래만으로도 주요 가격 발견 기회를 더욱 정확하게 포착하고 거래 수수료를 효과적으로 관리할 수 있음을 시사합니다.

반례는 고빈도 거래와 수수료 민감도가 LLM 수익 모델에 미치는 영향입니다. 예를 들어, Gemini 2.5 Pro의 거래 기록에 따르면 Gemini의 거래 활동으로 인한 이익은 실제로 손실을 초과했습니다. 그러나 정확한 수수료 추정 및 최적화 기능 부족으로 인해 순이익이 완전히 감소하여 순손실이 발생했습니다.

AI 거래는 보편화될 것이지만, 전략의 동질성은 체계적 위험을 유발할 수 있다

이와 관련하여 CZ는 X 플랫폼에 "AI+거래"가 더욱 보편화되어 거래량이 늘어날 것으로 예상된다고 게시했습니다.

AI의 대규모 도입은 암호화폐 시장의 유동성 및 가격 예측 메커니즘을 혁신할 수 있습니다. 알고리즘 트레이딩은 현대 금융 시장의 핵심 동력입니다. AI 기반 알고리즘은 최대 0.01초의 속도로 거래를 실행할 수 있으며, 이는 인간의 반응 속도인 0.1~0.3초를 훨씬 뛰어넘어 시장 효율성을 크게 향상시킵니다. 통계에 따르면 2023년 전 세계 암호화폐 알고리즘 거래량은 94조 달러에 달했으며, 이 중 70% 이상이 로봇에 의해 수행되었습니다.

AI가 발전함에 따라 더욱 강력한 자동 거래 기능이 가능해질 것입니다. AI는 시장 효율성을 높일 뿐만 아니라, 더욱 다양한 자산과 거래 플랫폼에 유동성을 제공하여 슬리피지(slippage)를 줄이고, 이를 통해 전반적인 시장 안정성과 회복력을 향상시킬 것입니다.

그러나 암호화폐 시장에서 AI의 자율적이고 고속 운영은 시스템적 금융 위험을 증폭시킬 수도 있습니다. 역사적 선례가 있습니다. 2010년 다우존스 산업평균지수의 "플래시 크래시"는 유사한 설정을 가진 다수의 알고리즘 거래 시스템이 서로를 트리거할 때 연쇄 반응을 일으켜 시장 붕괴로 이어질 수 있음을 보여주었습니다.

AI + 암호화폐 시나리오에서는 전략 동질성으로 인해 이러한 위험이 증폭될 수 있습니다. 시장 전문가들은 Grok-4와 DeepSeek의 계좌 자본 곡선이 놀라울 정도로 유사하다는 점에 주목했습니다. Alpha Arena의 제로섬 게임은 참여하는 모든 LLM에게 고압적인 적응력 테스트를 실시합니다. 제로섬 게임에서는 일시적으로 앞서 나가는 모든 LLM 전략이 다른 경쟁자에게 감지되어 학습될 수 있습니다.

앞으로 DeepSeek V3.1과 Grok-4와 같은 몇몇 주요 LLM을 기반으로 다수의 AI 에이전트가 개발되고 유사한 학습 데이터와 전략 로직을 공유하게 되면, 규제 기관이 "수평적 문제"라고 부르는 현상이 발생할 것입니다. 암호화폐 시장은 24시간 내내 높은 레버리지를 기반으로 운영되는 특성상, 이러한 전략의 융합은 에이전트 간의 상호 감지 및 경쟁으로 이어질 수 있습니다. 시장 변동성이나 예상치 못한 입력이 발생할 경우, 모든 에이전트가 동시에 매도 주문을 발생시켜 2010년보다 훨씬 더 심각한 "매도 스파이럴" 현상을 초래할 수 있습니다.

한편, CZ는 트윗에서 의구심을 표하며 많은 관찰자들의 의문을 제기했습니다. 과거에는 우수한 자체 전략을 보유해야만 최적의 성과를 얻을 수 있다는 믿음이 널리 퍼져 있었습니다. 이제 6대 LLM의 전략이 공개되었는데, DeepSeek의 전략은 여전히 ​​효과적일까요? 수익성은 얼마나 지속될까요? Gemini와 GPT-5의 반대 방향으로 거래하면 DeepSeek보다 더 높은 수익률을 낼 수 있을까요? Grok-4는 DeepSeek의 영향을 받고 있을까요? 극단적이거나 일방적인 시장 상황에서 어떤 모델이 가장 좋은 성과를 낼까요? 이러한 질문들은 시간이 지남에 따라 답을 찾아야 합니다.

아직 많은 의문이 남아 있지만, nof1의 알파 아레나는 LLM을 실제 암호화폐 시장에 접목한 매우 혁신적인 실험입니다. 이 "실전 훈련"은 AI가 암호화폐 시장을 재편할 수 있는 엄청난 잠재력을 생생하게 보여주며, 알파 아레나는 그 시작에 불과합니다.

공유하기:

작성자: Jae

이 글은 PANews 입주 칼럼니스트의 관점으로, PANews의 입장을 대표하지 않으며 법적 책임을 지지 않습니다.

글 및 관점은 투자 조언을 구성하지 않습니다

이미지 출처: Jae 침해가 있는 경우 저자에게 삭제를 요청하세요.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
24분 전
2시간 전
4시간 전
4시간 전
4시간 전
7시간 전

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读