컴퓨팅 파워가 다시 중앙집중화되고 있다: 딥시크의 가격 인하 이후, 누가 AI 인프라를 통제하게 될까?

—2026년 LA Hacks에서 곤카의 연설부터 시작해 보겠습니다.

4월 26일, 딥시크는 V4 시리즈 API 의 새로운 가격 정책을 발표했습니다. 전체 시리즈의 입력 캐시 적중 비용이 출시 당시 가격의 1/10로 인하되었고, 기간 한정 할인으로 토큰 100만 개 처리 비용이 0.025위안까지 떨어졌습니다. 이는 1년 전보다 거의 100배나 저렴한 가격입니다. 이에 따라 A주에 상장된 컴퓨팅 파워 관련 주식들은 일제히 일일 상한가를 경신했고, 시장 분위기는 매우 뜨거웠습니다.

하지만 환호성 이면에는 아무도 직접적으로 언급하지 않는 문제가 있습니다. 모델 가격이 저렴해짐에 따라 모델을 실행하는 데 필요한 컴퓨팅 파워가 점점 더 중앙집중화되고 있다는 것입니다.

데이터는 거짓말을 하지 않습니다. 2025년 4분기, 마이크로소프트, 아마존, 메타, 구글 등 4대 클라우드 업체의 총 자본 지출은 전년 동기 대비 64% 증가한 1,186억 달러에 달했습니다. 2026년 전체 자본 지출은 전년 동기 대비 53% 증가한 5,708억 달러에 이를 것으로 예상됩니다. 구글은 같은 기간 TPU 칩 출하량 목표를 50% 상향 조정하여 600만 개로 발표했습니다. 엔비디아의 H100 시리즈는 일부 시장에서 출하까지 수개월이 소요되고 있습니다.

모델 계층에서의 가격 결정권은 개발자 쪽으로 이동하고 있지만, 컴퓨팅 파워 계층에서의 통제권은 훨씬 빠른 속도로 소수의 거대 기업 손에 집중되고 있습니다. 이는 인공지능 시대에 숨겨져 있지만 심오한 모순입니다.

이러한 배경 속에서 2026년 4월 24일, 곤카 프로토콜 공동 창립자인 다니일 리버만과 데이비드 리버만 형제는 LA Hacks 2026의 기조연설 무대에 섰습니다. UCLA 최대 규모의 연례 대학 해커톤인 LA Hacks 2026의 기조연설자로 나선 리버만 형제는 업계 진출을 앞둔 수백 명의 최고 엔지니어들을 대상으로 연설했습니다. 그들이 던진 질문은 그 순간 특히 명확했습니다. 과연 분산 컴퓨팅은 여전히 실현 가능한가?

I. 가격 인하의 이면

DeepSeek V4의 가격 인하 논리는 기술 발전으로 인한 효율성 증대 효과에 기인하는 것으로 보입니다. 새로운 어텐션 메커니즘은 토큰 차원을 압축하고, DSA 희소 어텐션과 결합하여 컴퓨팅 성능과 GPU 메모리 요구량을 크게 줄입니다. 그러나 이러한 가격 인하가 지속되려면 특정 지역의 컴퓨팅 성능이 충분하고 저렴해야 한다는 전제가 필요합니다.

실제로 이러한 "충분한" 컴퓨팅 파워는 전 세계적으로 소수의 핵심 시설에 빠르게 집중되고 있습니다. 광통신 분야의 선두 기업인 루멘텀(Lumentum)의 CEO 마이클 헐스턴은 최근 현재 추세대로라면 2028년까지 자사의 생산 능력이 거의 전량 매진될 것이라고 밝혔습니다. 이는 특정 기업만의 문제가 아니라, 급증하는 수요에 직면한 전체 AI 인프라 공급망에 가해지는 집단적인 압박입니다.

LA Hacks 강연 에서 다니일은 간단하면서도 강력한 비유를 사용했습니다. 비트코인 네트워크의 컴퓨팅 파워는 이미 구글, 마이크로소프트, 아마존의 세 클라우드 데이터 센터의 컴퓨팅 파워를 합친 것보다 더 크지만, 이 컴퓨팅 파워는 무엇을 하고 있을까요? 아무도 답을 필요로 하지 않는 해시 퍼즐을 푸는 데 쓰이고 있습니다. 전 세계의 유휴 GPU 컴퓨팅 파워도 마찬가지입니다. 게이머의 컴퓨터에 있는 그래픽 카드, 대학 컴퓨터 연구실의 서버, 중소 클라우드 서비스 제공업체가 보유한 여유 용량 등 모든 컴퓨팅 파워를 합치면 엄청난 규모이지만, 조정 메커니즘의 부재로 인해 AI 추론에 활용되지 못하고 있습니다.

곤카는 전 세계에 흩어져 있는 유휴 GPU를 실제 AI 추론 작업을 수행할 수 있는 네트워크로 구성하기 위해 작업 증명 인센티브 메커니즘을 사용하여 이러한 조정 문제를 해결하려고 합니다.

II. 추론이 새로운 전장이다.

딥시크의 가격 인하는 중국 인터넷에서 "AI 평등"에 대한 광범위한 논의를 불러일으켰습니다. 그러나 한 가지 중요한 사실이 간과되었습니다. 바로 이번 가격 인하는 "컴퓨팅 비용"이 아닌 "호출 가격"에 적용된다는 점입니다. AI 애플리케이션 규모가 커짐에 따라 추론 호출은 기하급수적으로 증가하고 있으며, 업계 예측에 따르면 2026년에는 전 세계 AI 컴퓨팅 파워 소비량의 약 3분의 2가 추론에 사용될 것으로 예상됩니다.

이것은 무엇을 의미할까요? 콜옵션 가격이 10분의 1로 줄어들 때마다 실제로 필요한 총 컴퓨팅 파워는 줄어들지 않고 오히려 증가합니다. 대규모 모델의 "민주화"는 어느 정도 컴퓨팅 파워의 중앙집중화를 가속화하는데, 이는 막대한 컴퓨팅 파워를 가진 기업만이 극히 낮은 수익률로 추론 서비스를 운영할 수 있기 때문입니다.

이는 새로운 구조적 고착 현상으로 이어지고 있습니다. 추론 측면에서 물리적 컴퓨팅 파워를 장악하는 자가 인공지능 시대로 향하는 진정한 인프라 관문을 통제하게 되는 것입니다. 이러한 관점에서 분산 컴퓨팅 네트워크의 중요성은 더 이상 "50% 더 저렴하다"는 비용 최적화에 그치는 것이 아니라, 중앙 집중식 고착이 완성되기 전에 구조적인 대안을 제시하는 데 있습니다.

III. 젊은 건설업자들에게 주어진 진정한 시험

LA Hacks 참가자들, 즉 캘리포니아 최고 대학 출신의 엔지니어와 제품 관리자들은 곧 그다지 낭만적이지 않은 엔지니어링 선택에 직면하게 될 것입니다. 바로 어떤 컴퓨팅 성능 계층을 기반으로 제품을 구축할 것인가 하는 문제입니다.

귀사의 AI 제품은 추론을 위해 어떤 서버를 사용합니까?

해당 플랫폼이 가격 전략이나 접근 정책을 조정할 경우, 마이그레이션할 수 있는 기능이 있습니까?

당신이 구축한 사용자 기반은 당신 자신에게 가치를 창출하고 있습니까, 아니면 플랫폼에 영향력을 행사할 수 있도록 돕고 있습니까?

이러한 문제들은 웹2.0 시대의 개발자들이 이미 경험했던 것들입니다. 애플리케이션의 운명이 플랫폼 알고리즘이나 배포 규칙에 깊이 좌우될 때, '독립성'이라는 단어는 언제든 재정의되어야 할 단어가 됩니다. AI 시대의 컴퓨팅 파워 의존성은 인프라 계층에서도 동일한 논리를 반복할 것이며, 플랫폼 전환 비용이 높을수록 벤더 종속 효과는 더욱 심화될 것입니다.

해커톤이라는 형식 자체에는 역설적인 면이 있습니다. 최소한의 자원으로 최대한의 속도를 내어 36시간 안에 작동하는 무언가를 만들어내는 것, 이것이야말로 탈중앙화 네트워크의 인센티브 메커니즘이 추구하는 목표와 정확히 일치합니다. 다니일이 LA Hacks 무대에 섰을 때, 그는 단순히 곤카(Gonka)에 대해 이야기한 것이 아니었습니다. 그는 참가자들에게 "여러분은 미래에 무엇을 할 건가요? 중앙 집중화 추세를 가속화할 건가요, 아니면 새로운 가능성을 창출할 건가요?"라고 묻는 듯했습니다.

IV. PoW 2.0: 공학적 제안

곤카(Gonka)는 작업증명(Proof-of-Work)의 인센티브 구조를 해시 연산에서 AI 추론으로 전환하여 네트워크 연산 능력의 거의 100%가 실제 작업에 직접 활용될 수 있도록 합니다. 이 메커니즘에는 핵심적인 엔지니어링 요구 사항이 있습니다. 바로 AI 추론 작업이 검증 가능하고 재현 가능해야 한다는 것입니다. 동일한 모델 가중치, 동일한 난수 시드, 동일한 입력이 주어지면 어떤 노드든 연산 결과를 재현하고 그 유효성을 검증할 수 있어야 합니다. 이것이 바로 곤카를 학술적 프로토타입에서 실제 작동하는 네트워크로 발전시킨 핵심적인 엔지니어링 과제입니다.

경제적 관점에서 이 메커니즘의 중요성은 토큰의 가치가 유동성 심리가 아닌 물리적 컴퓨팅 파워의 비용에 자연스럽게 연동된다는 점에 있습니다. 컴퓨팅 파워를 제공하는 채굴자는 보상을 받고, 컴퓨팅 파워를 사용하는 개발자는 사용료를 지불합니다. 전체 시스템의 인센티브 순환 구조는 어떤 중개자의 호의에도 의존하지 않습니다.

물론 기술적 실현 가능성은 문제의 일부일 뿐입니다. 더 어려운 질문은 다음과 같습니다. 컴퓨팅 성능에 대한 수요가 급증하고 주요 기업들이 수백억 달러를 투자하는 시대에, 자발적인 커뮤니티 참여를 통해 구축된 분산 컴퓨팅 네트워크가 규모 면에서 진정으로 경쟁력을 갖출 수 있을까요?

곤카의 초기 데이터는 하나의 기준점을 제공합니다. 메인넷 출시 후 1년도 채 되지 않아 네트워크의 총 컴퓨팅 파워는 H100 환산 60개에서 1만 개 이상으로 확장되었는데, 이는 중앙 집중식 할당이 아닌 전 세계 수백 개의 독립 노드가 자발적으로 통합되면서 달성된 것입니다. 이는 확장성 문제가 해결되었다는 것을 증명하는 것은 아니지만, 인센티브 메커니즘이 초기 성장을 효과적으로 이끌었음을 보여줍니다.

V. 윈도우 기간 관련 문제

역사적으로 인프라 분야의 지배력은 초기 단계에서 빠르게 특정 기업에 집중되는 경향이 있었습니다. 이는 철도 시대, 인터넷 시대, 모바일 인터넷 시대 모두에서 마찬가지였습니다. 어떤 기업들은 표준이 확립되기 전에 자리를 잡았지만, 다른 기업들은 중앙집중화가 완료된 후에야 자신들의 참여 범위가 크게 좁아졌다는 사실을 깨달았습니다.

현재 AI 컴퓨팅 인프라는 어디에 위치해 있을까요? 4대 클라우드 업체의 2026년 예상 자본 지출액이 5,708억 달러에 달하는 것을 보면 중앙 집중화가 가속화되고 있음을 알 수 있습니다. 하지만 개발자들의 실제 사용 패턴을 살펴보면 공급 측면에서 통합되지 않은 리소스가 여전히 많이 존재합니다. 바로 이 격차가 분산형 네트워크가 구조적으로 존재할 수 있는 지점입니다.

다니일은 연설에서 다음과 같은 대조적인 사례를 들었습니다. 2000년 닷컴 버블 붕괴 이후 남은 것은 폐허가 아니라 향후 20년간 디지털 경제 운영을 뒷받침한 글로벌 광섬유 네트워크였습니다. 인공지능 인프라 투자 붐이 사그라든 후에는 구축된 컴퓨팅 파워 프로토콜과 인센티브 메커니즘이 다음 주기의 인프라가 될 것입니다. 다만 관건은 어떤 프로토콜이 압박 속에서도 제대로 작동할 만큼 견고한 논리를 갖추고 있느냐는 것입니다.

이 질문은 특정 프로젝트에 관한 것이 아니라, 탈중앙화 AI 분야 전체가 직면해야 할 문제입니다. 과연 거버넌스 설계는 단일 통제 지점의 약화를 진정으로 막아낼 수 있을까요? 규모가 커진 후에도 인센티브 메커니즘은 효과적으로 유지될까요? 컴퓨팅 네트워크의 탈중앙화는 기술 실행 계층, 토큰 발행 계층, 업그레이드 의사 결정 계층이라는 세 가지 차원에서 동시에 타당할까요?

결론

딥시크의 가격 인하는 "AI 민주화"라는 담론에 다시 불을 지폈습니다. 하지만 추론 호출의 민주화와 컴퓨팅 인프라의 민주화는 별개의 문제입니다. 전자는 이미 현실화되고 있지만, 후자가 실현될 수 있을지는 향후 몇 년 동안 얼마나 많은 사람들이 이를 단순히 듣기 좋은 말로만 그치지 않고, 해결해야 할 가치 있는 엔지니어링 문제로 진정으로 인식하고 행동하느냐에 달려 있습니다.