저자: Frank, PANews
만약 당신에게 10,000달러가 주어진다면, 어떤 AI를 신뢰하여 당신의 투자를 관리하게 하겠습니까?
이전에 PANews는 nof1.ai의 AI 트레이딩 경연 대회(관련 자료: 10일간의 대결에서 6명의 AI "트레이더": 추세, 규율, 그리고 탐욕에 대한 대중의 교훈 )를 검토했습니다. 그러나 nof1.ai 경연 대회는 특정 시장 기간에만 국한되었으며, 각 AI 모델의 최종 트레이딩 역량은 해당 기간 동안 충분히 입증되지 않은 것으로 보입니다. 더욱이, 다양한 조건에서 AI 모델의 실제 예측 역량을 명확히 할 필요성이 절실합니다. 또한, 최근 여러 AI 회사들이 최신 대규모 모델을 출시함에 따라, 이러한 모델들의 순위는 현재 재평가되고 있습니다.
PANews는 이 미스터리를 풀기 위해 "AI 트레이더 대결"을 기획했습니다. 대규모 AI 모델이 시장 동향을 판단하고 다양한 시나리오에서 거래를 계획하는 능력을 파악하기 위한 것입니다. 예를 들어, 어떤 시간대를 더 잘 분석하는지, 그리고 지표를 활용하면 AI 예측의 성공률이 향상되는지 등을 알아봅니다.
타임라인을 현재까지 확장하여, 바이낸스 BTC 과거 데이터에서 100개의 실제 시장 데이터 슬라이스를 무작위로 선택하여 "4시간 네이키드 캔들스틱 차트", "15분 단기 차트", "4시간 전체 지표 차트"의 세 가지 극단적인 테스트 시나리오를 구성했습니다. 6개의 참여자는 중국과 미국의 최고 컴퓨팅 성능을 대표합니다. Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max입니다.
이 테스트는 2017년 8월부터 현재까지의 바이낸스 BTC 현물 거래 쌍에 대한 15분 캔들스틱 차트 데이터와 2021년부터 현재까지의 4시간 캔들스틱 차트 데이터를 수집했습니다. 각 기간별로 100개의 캔들스틱 이미지 50개를 무작위로 생성했습니다. 4시간 차트는 캔들스틱과 거래량만 있는 차트와 EMA, SMA, Bollinger Bands, MACD, RSI와 같은 지표를 포함하는 차트의 두 가지 유형으로 나뉘었습니다. 15분 캔들스틱 차트는 모두 네이키드 캔들스틱 차트(거래량 포함)였습니다. AI에는 현재 캔들스틱 차트에 해당하는 특정 가격 또는 지표 데이터 값이 동시에 제공되었습니다. 모든 AI 출력 결과는 여기에서 확인할 수 있습니다.
지표가 포함된 4시간 차트
4시간 순수 캔들스틱 차트
테스트 과정에서 각 대형 모델이 수집한 데이터와 명령은 정확히 동일했습니다. 다른 관점에서는, 이는 이러한 대형 모델들의 멀티모달 기능(DeepSeek은 텍스트 기반 대형 모델만 가지고 있기 때문에 궁극적으로 데이터 정보만 수신하고 이미지를 전송하지 않음) 측면에서도 테스트되었습니다.
쌍둥이자리 3: "지표"로 봉인된 벌거벗은 거래의 왕
Gemini 3는 현재 가장 인기 있는 AI 모델이며, 11월 18일 출시 이후 미디어 리뷰와 테스트를 바탕으로 볼 때 가장 강력한 멀티모달 AI 모델로 간주될 수 있습니다. 그러나 이 거래 예측 테스트에서 Gemini 3의 결과는 최고는 아니었으며 평균 수준이었습니다. 세 가지 시나리오(지표 없는 4시간 차트, 지표 있는 4시간 차트, 지표 없는 15분 차트)에서 Gemini 3는 지표 없는 4시간 차트 시나리오에서 39.58%의 승률을 달성하며 가장 좋은 성과를 거두었고, 지표 없는 15분 차트 시나리오는 34.04%로 그 뒤를 이었습니다. 그러나 지표를 사용한 경우(동일 기간) 4시간 기간의 정확도는 실제로 31%로 떨어져 세 가지 시나리오 중 가장 낮았습니다.
이러한 관점에서 볼 때, 제미니 3은 순수 캔들스틱 차트 패턴에서 탁월한 성과를 보이는 반면, 지표를 추가하면 간섭에 더 취약해집니다. 지표 없이 실제 거래에서 제미니 3은 포지션을 오픈하는 경향이 더 강한 것으로 보입니다. 순수 캔들스틱 차트에서는 95%의 경우 시장에 진입하지만, 지표를 추가하면 이 비율이 71%로 떨어집니다. 제미니 3은 4시간 순수 캔들스틱 차트 시나리오에서도 수익을 내는 유일한 모델이라는 점도 주목할 만합니다.
15분 시나리오에서 제미니 3은 총 포지션 수익 15.34%로 전반적으로 가장 좋은 성과를 보인 반면, 지표가 포함된 시나리오에서는 실제로 21.18%의 손실을 기록했습니다. 그러나 이 수익은 단기적인 행운이기도 합니다. 각 인스턴스의 손익률 데이터를 살펴보면, 제미니 3의 예상 수익(승률 * 손익률)은 항상 1 미만으로, 장기적으로는 손실을 보고 있음을 의미합니다.
DeepSeek V3.2: 견고한 "초단기 주문 브러싱 머신"
DeepSeek은 6개 모델 중 전반적인 승률이 가장 높고 안정성도 가장 높은 모델입니다. 세 가지 시나리오(4시간 만기 캔들스틱 차트, 지표가 포함된 4시간 만기 차트, 15분 만기 캔들스틱 차트)에서 승률은 각각 40%, 41.38%, 42.86%입니다. 이는 DeepSeek의 예측 능력이 다양한 시간대와 지표 유무에 관계없이 비교적 안정적임을 보여줍니다.
그러나 DeepSeek의 전반적인 수익성은 평균 1.25에 불과한 낮은 손익률로 인해 저조했습니다. 이러한 조기 이익 실현 경향은 DeepSeek이 수익을 내는 데 있어 충분한 시간을 두지 않음을 보여줍니다. 결과적으로 DeepSeek의 예상 이익은 거의 항상 0.5 수준이며, 이는 장기적인 수익성 부족을 시사합니다. 더욱이 DeepSeek은 포지션 개시 결정에 있어 상대적으로 보수적이며, 전체 포지션 점유율은 58%에 불과합니다.
두바오: 이 대회의 "올라운드 MVP"
이 테스트에서 Doubao1.6-vision은 전반적으로 가장 좋은 성과를 달성했습니다. 지표가 포함된 4시간 차트에서 Doubao1.6-vision은 50%의 최고 승률을 달성했으며, 최종 수익률은 22.2%였습니다. 동시에 15분 단기 차트에서도 전체 수익률은 8.2%를 기록했습니다. 이는 두 가지 다른 측면(단기 및 4시간 지표)에서 지속적으로 수익을 창출하는 유일한 모델입니다.
더욱이, Doubao1.6-vision의 성과는 비교적 보수적인 접근 방식이 아니라, 평균 포지션 개시 비율이 92%를 초과하는 상황에서 달성되었습니다. 즉, Doubao1.6-vision은 대부분의 상황에서 포지션을 개시했습니다. 그러나 상대적으로 Doubao1.6-vision의 성과는 지표 신호에 크게 의존합니다. 지표가 있을 때와 없을 때의 총 이익 차이는 38%입니다. 또한, 손익률 데이터를 살펴보면, Doubao1.6-vision은 두 기간 모두 수익률이 양수일 때 상대적으로 높은 손익분기점을 기록했는데, 이는 전반적으로 우수한 성과를 거둔 이유이기도 합니다.
Grok 4.1: xAI의 "급진적인 도박꾼"
Grok 4.1의 전반적인 스타일은 대담하지만 지표에 크게 의존하는 동시에 더 큰 수익을 추구하려는 의지를 가지고 있습니다. 세 가지 시나리오에서 Grok 4.1은 지표를 포함한 4시간 주간 차트에서만 34.69%의 승률을 달성했습니다. 다른 두 시나리오의 승률은 매우 낮았습니다. 캔들스틱 패턴만 포함된 4시간 차트에서는 승률이 14.58%에 불과했고, 15분 차트에서는 26.53%였습니다. 그러나 평균 포지션 오픈 비율은 98%에 달해 거의 모든 캔들스틱 시나리오에서 포지션을 오픈하려는 의지를 보여줍니다. 이러한 관점에서 Grok 4.1의 스타일은 충동을 억제하지 못하는 도박꾼의 스타일과 더 유사합니다.
하지만 Grok 4.1의 손익률은 평균 2로 매우 높은 편이며, 이는 모든 모델 중 가장 높은 수치입니다. 하지만 전반적으로 Grok 4.1에 자금을 맡기는 것은 현명한 선택이 아닙니다.
GPT 5.1: 극도로 조심스러운 "치명적 곰" 비관주의자
GPT 5.1의 거래 스타일은 Grok 4.1과 완전히 반대입니다. GPT 5.1은 매우 신중하며 대부분의 경우 관망하는 경향이 있습니다. 결과적으로 150건의 테스트 중 단 52건의 거래만 실행되었고, 평균 포지션 크기는 0.34%에 불과했습니다.
그러나 이러한 신중한 접근 방식조차도 GPT 5.1의 승률을 높이지는 못했습니다. 최상의 시나리오에서도 35%의 승률만 달성했습니다. 더욱이 4시간 및 15분 차트 후반부와 비교했을 때, GPT 5.1은 장기 진입 시점에 대한 대응력이 현저히 부족합니다. 기술적 지표를 활용하더라도 4시간 차트에서의 승률은 27%에 불과했습니다. 15분 차트에서만 높은 손익률(2.02) 덕분에 플러스 수익률을 달성하여 최종적으로 9.9%에 도달했습니다.
또한, GPT 5.1은 뚜렷한 비관론과 공매도에 대한 강한 선호도를 특징으로 합니다. 주문의 70% 이상이 공매도 포지션입니다.
Qwen 3: 말이 간결한 위험 회피형 사람
Qwen 3는 가장 신중한 대형 모델이었으며, 모든 테스트에서 44개 포지션만 오픈했고, 포지션 오픈률은 29%에 불과했습니다. 그러나 GPT와 마찬가지로 이러한 극단적인 신중함이 더 높은 승률로 이어지지는 않았습니다. 평균 승률은 34%에 불과했으며, 지표를 포함한 4시간 차트에서 가장 높은 성과를 보였습니다.
더욱이 Qwen 3은 1.96이라는 비교적 높은 손익률을 자랑합니다. 이는 Qwen 3이 위험 회피형 트레이더로서, 거래 횟수를 줄이면서도 수익을 창출하는 데 더 적합하다는 것을 시사합니다. 지표를 포함한 4시간 차트에서도 Qwen 3의 예상 수익률은 수익성에 가장 근접하여 0.95에 도달하며 모든 모델 중 가장 높습니다.
데이터 요약
요약:
요약하자면, 우리는 AI 시뮬레이션 거래 과정을 통해 다음과 같은 통찰력을 얻을 수 있었습니다.
첫째, 대부분의 모델에서 지표를 사용하는 것이 캔들스틱 차트만 사용하는 것보다 더 큰 신뢰도를 제공합니다. 지표를 사용했을 때 이 여섯 가지 모델의 평균 승률은 38%에 달했지만, 지표를 사용하지 않았을 때는 30%에 그쳤습니다.
둘째, AI는 장기 거래보다 단기 거래에 더 적합할 수 있습니다. 15분 순수 캔들스틱 차트 시나리오에서 6대 주요 모델의 평균 승률은 34%에 달했는데, 이는 4시간 차트의 30%보다 높은 수치입니다. 6대 모델 중 3대(제미니, GPT, 두바오)는 수익성이 있었으며, 평균 손익률도 전반적으로 양호했습니다.
셋째, AI에 거래를 전적으로 맡기는 것은 바람직하지 않습니다. 이 테스트에서 모든 AI 모델의 기대 수익은 1 미만이었습니다. 이는 장기적으로 이러한 승률과 손익률을 고려할 때, 결국 모두 손실로 이어질 것임을 의미합니다. 유일한 차이점은 손실 속도입니다(단, AI 모델은 특별히 튜닝되지 않았고 비교적 간단하고 널리 사용되는 지표만 사용되었기 때문입니다). 따라서 AI가 거래를 대신하도록 하려면 더 복잡한 튜닝 프로세스와 더 많은 백테스팅 데이터가 필요할 수 있습니다.
이 컴퓨팅 파워 대결이 마무리되고 최종 계좌 잔액을 살펴보면, 우리가 얻는 가장 중요한 교훈은 "어떤 모델이 가장 강력한가"가 아니라 "AI 트레이딩의 경계는 어디인가"일 수 있습니다. 궁극적인 결론은 오늘날의 AI가 최고 수준의 펀드 매니저를 직접 대체할 수는 없더라도, 한 분야에서는 비교적 정교한 트레이딩 보조 도구로 진화했다는 것입니다. 어떤 AI는 차트 분석에, 어떤 AI는 위험 관리에, 어떤 AI는 안정적인 승률을 달성하기 위한 데이터 분석에 탁월합니다. 그러나 AI에 대한 기대가 높아지는 상황에서, AI가 트레이딩에서 인간을 대체할 수 있을지에 대한 질문은 여전히 복잡합니다.
