인공지능 컴퓨팅 파워 산업 사슬에서 병목 현상의 근본적인 논리

저자: qinbafrank

지난 2월, " 이번 자본 지출 전쟁은 무엇을 의미하는가? "라는 제목의 기사에서 우리는 컴퓨팅 파워 산업 사슬의 핵심 연결 고리, 즉 칩, 패키징 및 테스트, 스토리지, 광 모듈 등이 여전히 최대의 가치를 창출할 수 있는 방안에 대해 논의했습니다. 생산 능력을 빠르게 확장하기 어려운 기업이나 진입 장벽이 매우 높은 기업들이 막대한 자본 지출의 혜택을 누릴 것입니다.

효율성 최적화를 위한 여지는 여전히 상당합니다 . 증류, 양자화, MoE, 전용 칩, 액체 냉각, 그리고 (장기적으로는) 추론 단계에서의 핵융합 기술은 컴퓨팅 성능 단위당 에너지 소비와 비용을 10~100배까지 줄일 수 있습니다. 이러한 분야에서 기회를 모색해야 합니다.

최근 모건 스탠리, JP모건 체이스, 뱅크 오브 아메리카, 골드만 삭스, UBS, 시티그룹, 번스타인, HSBC 등 여러 투자은행들이 AI, 반도체, 전력, 스토리지 관련 최신 보고서를 발표했습니다. AI 하드웨어 병목 현상은 "GPU 공급"이라는 단일 차원에서 벗어나 전력, 칩, 스토리지, 장비, 소재 등 5개 차원에 걸친 총체적인 부족 현상으로 확대되었습니다 .

인공지능에 대한 수요는 기존 전력 계획, 반도체 장비 용량, 저장 장치 가격 모델 및 로봇 설치 가정에 따른 모든 예측 범위를 초과했습니다 .

모건 스탠리의 글로벌 테마 연구 보고서에 따르면, 전 세계 대형 언어 모델 토큰의 주간 소비량이 3개월 만에 6조 4천억 달러에서 22조 7천억 달러로 2.5배 급증했습니다. 2025년부터 2028년까지 미국의 데이터 센터 전력 부족량은 55기가와트(GW)에 달할 것으로 예상됩니다. JP모건 체이스는 데이터 센터용 고성능 컴퓨팅 프로젝트 채권에 대한 첫 번째 분석 보고서에서 향후 5년간 122GW 규모의 자금 부족이 발생할 것이라고 지적했습니다. 미국의 5개년 전력 계획은 101GW에서 230GW로 상향 조정되었으며, 신규 프로젝트의 44%는 전력망 연결을 위해 4년 이상을 기다려야 하는 상황입니다. 뱅크 오브 아메리카는 알파벳의 최신 목표 주가 보고서에서 2026년 자본 지출을 전년 대비 두 배 증가한 1,815억 달러로 상향 조정했으며, 잉여현금흐름은 전년 대비 62% 감소했다고 밝혔습니다. 이 세 가지 데이터 세트는 동일한 프레임워크에서 나온 것이 아니라, 서로 다른 연구 경로를 사용하는 세 개의 독립적인 기관에서 얻은 독립적인 프로필입니다.

반도체 산업 공급망(특히 AI 컴퓨팅 분야)의 병목 현상은 "컴퓨팅(GPU) → 스토리지(HBM 등) → 광 인터커넥트 → 전력/액체 냉각"이라는 명확한 순차적 진행 과정을 따릅니다. 이는 2025년에서 2026년까지 업계에서 합의된 전망입니다. AI 학습/추론 클러스터가 단일 랙(수십 개의 GPU)에서 초대형 규모(수천 개에서 수십만 개의 GPU)로 확장됨에 따라, 한 단계의 병목 현상을 해결하면 곧바로 다음 단계의 물리적/공급망 제약이 드러나게 되며, 이는 마치 "레온티에프의 법칙"과 같은 상호 보완적인 제약 조건(어느 하나라도 해결되지 않으면 출하가 불가능해지는 상황)을 형성합니다.

이러한 진화가 일어난 이유, 현재 상황, 그리고 근본적인 물리적/공학적 원인을 이해하는 것이 필요합니다.

1. 1단계 병목 현상: GPU 컴퓨팅(2022-2024년 성장을 주도) 코어 제한 사항:

NVIDIA Hopper H100 → Blackwell B200 → Rubin과 같은 고급 GPU는 자체 웨이퍼 생산 시설과 첨단 패키징 기술을 보유하고 있습니다.

왜 병목 현상이 발생할까요? 대규모 AI 모델은 막대한 병렬 컴퓨팅을 필요로 하는데, TSMC의 4nm/3nm/2nm 로직 공정 및 CoWoS(2.5D/3D 패키징) 역량이 가장 큰 병목 현상이 되고 있습니다. 프런트엔드 웨이퍼가 충분하더라도, 백엔드에서 로직 칩과 HBM을 적층 및 패키징하는 능력이 수요를 따라가지 못하면 전체 GPU를 생산할 수 없습니다.

완화 조치: TSMC는 CoWoS 생산 능력을 대폭 확장하고 있으며(2024~2025년 생산 능력 두 배 증가), NVIDIA Blackwell은 이미 대규모 출하를 시작했습니다. 그러나 이는 "컴퓨팅" 측면만 해결해 줄 뿐이며, 곧 새로운 문제들이 나타날 것입니다.

2. 2단계 병목 현상: 저장 장치 (HBM 고대역폭 메모리, 2024-2025년에 가장 부족한 자원이 될 전망)

주요 제한 사항: HBM3/HBM3e/HBM4 생산 능력.

릴레이가 병목 현상을 일으키는 이유는 무엇일까요? GPU 연산 능력은 향상되었지만, 모델 파라미터 수는 폭발적으로 증가하여(수조, 심지어 수십조 개) 데이터 전송(메모리 대역폭)이 "메모리 장벽"이 되었습니다. HBM은 초당 수 테라바이트의 데이터를 전송할 수 있으며, 이는 기존 DDR 메모리보다 20배 이상 빠른 속도입니다. 또한 HBM은 로직 칩 가까이에 위치하기 때문에 데이터 전송 거리가 짧아 에너지 소비를 줄일 수 있습니다.

단일 B200 GPU에는 192GB 이상의 HBM3e가 필요하며, 단일 랙(NVL72)의 총 HBM 용량은 30~40TB에 달하고, 대역폭 요구 사항은 기존 DRAM의 요구 사항을 훨씬 초과합니다.

공급망 현황: HBM을 대량 생산할 수 있는 기업은 SK하이닉스, 삼성, 마이크론뿐입니다. 생산 공정은 TSV(Through Silicon Vias) 방식과 스태킹을 결합하는 복잡한 구조입니다. 이들 기업의 HBM 재고는 2025년까지 모두 소진되었으며, 2026년에도 수요가 공급을 초과하고 가격은 전년 대비 246% 급등했습니다. GPU 칩이 준비되더라도 HBM 없이는 조립 및 납품이 불가능하여 전체 AI 클러스터 구축에 차질이 생길 수밖에 없습니다.

결과: 저장 시설은 단순한 "상품"에서 전략적 병목 현상으로 변모했으며, 자본 지출의 최대 30%를 차지하게 되었습니다.

3. 세 번째 단계의 병목 현상: 광 인터커넥트(현재 2025-2026년 전환 예정)

핵심적인 한계점: 대역폭, 거리, 전력 소비 및 무게 측면에서 구리 케이블(NVLink/NVSwitch)의 물리적 한계.

광섬유로의 전환이 불가피한 이유: 구리 케이블은 단일 랙(GPU 72개) 내에서는 여전히 사용할 수 있지만, 여러 랙으로 확장하거나 수천 개의 GPU를 상호 연결하는 데에는 상당한 어려움이 있습니다. 구리 케이블은 심각한 신호 감쇠(1.8TB/s 대역폭에서 유효 거리 1미터 미만), 과도한 무게(NVL72 랙에 5,000개 이상의 구리 케이블이 사용되어 총 1.36톤에 달함), 높은 전력 소비(구리 케이블을 플러그형 광 모듈로 교체할 경우 20,000와트의 추가 전력 소비 발생) 등의 문제점을 안고 있습니다. 신호 무결성, 지연 시간 및 발열 문제 또한 대규모 클러스터를 지원하기에 충분하지 않습니다.

해결책: 광 인터커넥트(CPO 코패키징 광학 + 실리콘 포토닉스 기술)로 전환합니다. 광 엔진을 GPU/ASIC 바로 옆에 패키징하고 광섬유를 사용하여 확장성을 확보함으로써 대역폭 밀도를 높이고 비트당 전력 소비를 줄이며 전송 거리를 늘릴 수 있습니다.

NVIDIA는 800G/1.6T 광 모듈 수요 급증이 예상되는 가운데, 광학 회사들에 이미 투자를 단행하며 GTC 2026에서 큰 도약을 준비하고 있습니다. Lite, Broadcom, Coherent, Ayar Labs 등이 이번 투자의 수혜주로 꼽힙니다.

현재 진행 상황: 구리 케이블은 한계에 도달했으며, 광 인터커넥트는 "선택 사항"에서 "필수 사항"으로 바뀌면서 AI 데이터 센터의 성능 한계를 뛰어넘고 있습니다.

4. 네 번째 단계의 병목 현상(현재 가장 중요한 문제): 전력 + 액체 냉각(2026년부터 마지막 물리적 제약 조건이 됨). 핵심적인 제약 조건: 전력 소비 한계 + 열 한계 + 전력망 연결.

왜 이것이 궁극적인 병목 현상일까요? 각 GPU의 소비 전력은 300W에서 700~1200W로 증가했고, 서버 랙 하나의 소비 전력은 CPU 시대의 10~20kW에서 120~200kW 이상으로 급증했습니다. 기존 공랭식 냉각 방식은 물리적 한계가 20~50kW에 불과하며, 소음, 공기 흐름, 에너지 소비 측면에서도 문제가 있습니다.

전력 측면에서 보면, 데이터 센터는 기가바이트급 전력 공급 장치를 필요로 하는데, 전력망 연결 대기 시간이 몇 년씩 걸릴 수 있어 변압기나 고체 변압기 같은 장비의 납품 주기가 최대 100주까지 늘어납니다. 마이크로소프트 CEO는 "우리는 GPU는 있지만 전원 콘센트가 없다"라고 직설적으로 말한 적도 있습니다.

액체 냉각 측면에서는 마이크로유체, 콜드 플레이트 및 기타 기술과 결합된 DTC(Direct-to-Chip) 또는 침수형 액체 냉각으로의 전환이 필요합니다. TSMC는 이미 2.6kW 이상의 TDP를 지원하는 CoWoS 플랫폼에서 실리콘 기반 액체 냉각을 시연했습니다. Vertiv(VRT)와 같은 액체 냉각/열 관리 공급업체가 새로운 핵심 인프라로 부상하고 있습니다.

연쇄 반응으로 인해 PUE(전력 사용 효율) 요구 조건이 1.2 미만으로 낮아졌고, 폐열 회수 및 원자력/신에너지원의 계통 연계가 새로운 화두로 떠올랐습니다. 앞서 언급한 모든 문제가 해결되더라도 전력과 냉각 없이는 서버 랙을 설치하고 가동할 수 없습니다.

AI 컴퓨팅 파워 산업 공급망에서 병목 현상이 해소되는 근본적인 이유는 AI 컴퓨팅 파워가 "단일 지점"의 문제가 아니라 시스템 차원의 레온티프 생산 함수와 같기 때문입니다. GPU, HBM, 인터커넥트, 전력, 냉각 시스템 등은 가장 취약한 연결 고리에 맞춰 조정되어야 합니다. 하이퍼스케일러(구글, 마이크로소프트, 메타 등)가 하나의 병목 현상을 해결할 때마다 자본과 혁신을 다음 단계로 즉시 이동시키는 효과를 가져옵니다.

현재(2026년) 우리는 "광학 인터커넥트의 가속화된 배포 + 전력/액체 냉각의 대규모 상용화"라는 전환기에 있습니다. 향후 레이저, 광섬유 소재 또는 전력망 변압기와 같은 새로운 병목 현상이 나타날 수 있지만, "컴퓨팅 → 스토리지 → 광 → 전력/냉각"의 연결 고리는 업계에서 인정받는 경로가 되었습니다.

이는 투자 논리가 NVIDIA/TSMC에서 HBM(SK Hynix 등), 광학 장비 제조업체(Lumentum, Coherent), 액체 냉각/전력 인프라(Vertiv 및 관련 전력 회사)의 3대 기업으로 옮겨간 이유를 설명해 줍니다.

병목 현상의 변화는 반도체 및 데이터 센터 산업 전체 공급망의 가치 분배 구조를 재편합니다.

인공지능 컴퓨팅 파워 산업 사슬에서 병목 현상의 근본적인 논리

인기 기사