엔비디아의 20년 성장 과정: 두 개의 게임용 그래픽 카드에서 수조 달러 규모의 제국으로의 변모를 1만 단어 분량으로 분석합니다.

우리의 이야기는 한 대회에서 시작됩니다.

페이페이 리는 과거 구글 부사장과 구글 클라우드 AI/ML 최고 과학자를 역임했으며, 스탠퍼드 대학교 교수이기도 했습니다. 하지만 그녀는 또 다른 정체성을 가지고 있는데, 바로 이미지넷(ImageNet) 대회의 창시자라는 점입니다.

이미지넷(ImageNet) 대회는 공식 명칭이 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)이며, 컴퓨터 비전 분야에서 가장 영향력 있는 학술 대회입니다.

2012년 ImageNet 대회에서 튜링상 수상자 제프리 힌튼의 제자인 알렉스 크리제프스키는 AlexNet 신경망을 사용하여 이미지 인식 오류율을 26%에서 15.3%로 줄여 전 세계를 놀라게 했으며, 2위와의 격차를 무려 10.8%포인트나 벌렸습니다.

핵심은 AlexNet이 슈퍼컴퓨터를 사용하지 않고, 일반적인 NVIDIA GTX 580 게이밍 그래픽 카드 두 장만으로 학습되었다는 점입니다. 이는 인공지능이 대규모로 GPU 가속을 활용한 최초의 사례입니다. 이전에는 학습이 주로 CPU에 의존했습니다.

이 결과는 인공지능 딥러닝과 GPU의 결합이 컴퓨팅 파워 혁명을 일으킨다는 것을 전 세계에 선언하는 것과 마찬가지입니다.

연구원들이 GPU에 관심을 돌리면서, NVIDIA의 CUDA만이 C와 유사한 언어로 복잡한 알고리즘을 작성할 수 있게 해준다는 사실을 발견했습니다.

황런순의 '10년 도박'

2006년으로 돌아가 봅시다. 당시 GPU의 역할은 오직 게임 그래픽 렌더링뿐이었습니다.

하지만 젠슨 황은 GPU를 범용 컴퓨팅 도구로 만들고 싶어 했습니다. 그는 CPU의 경우 무어의 법칙이 한계에 다다르고 있으며, 직렬 컴퓨팅의 미래는 필연적으로 병렬 컴퓨팅이 될 것이라고 굳게 믿었습니다.

그래서 2006년에 수석 과학자 이안 벅은 CUDA(Compute Unified Device Architecture) 개발을 주도했습니다. 하지만 당시에는 아무도 그것이 무엇을 위한 것인지 몰랐습니다.

CUDA를 지원하기 위해 NVIDIA는 각 GPU 칩에 추가적인 전용 컴퓨팅 회로를 내장합니다. 이는 칩 면적 증가, 전력 소비 증가, 수율 저하 및 비용 급증으로 이어집니다.

극소수의 연구원을 제외하고는 아무도 딥러닝을 받아들이지 않았습니다. 딥러닝이 폭발적으로 성장하기 전, 엔비디아는 전 세계 최고 연구소에 그래픽 카드를 무료로 제공하고 엔지니어를 파견하여 최적화를 지원하는 등 적극적인 행보를 보였습니다.

엔비디아는 CUDA 개발에 연간 약 5억 달러를 투자했지만, 당시 연간 순이익은 수억 달러에 불과했습니다. 2008년 금융 위기는 엔비디아의 주가 폭락을 초래했습니다.

주가 폭락이라는 압박에도 불구하고 젠슨 황은 10년이라는 긴 시간 동안 끈질기게 노력했습니다. 그는 GPU가 단순히 게임 그래픽 렌더링만을 위한 것이 아니라 범용 병렬 처리 장치라고 굳게 믿었습니다.

2012년 그 전환점에서 인텔은 여전히 CPU 시장 지배력을 유지하는 데 몰두하고 있었습니다. 인텔은 CPU의 다재다능함을 오랫동안 확신해 왔으며 신경망은 단지 일시적인 유행일 뿐이라고 믿었습니다. 연산이 필요하더라도 CPU 명령어 세트를 확장(예: AVX)하면 해결할 수 있다고 생각했습니다.

당시 AMD는 인수 후 성장통에 깊이 빠져 있었고 소프트웨어 투자에 극도로 인색했기 때문에, 자사의 AI 소프트웨어 스택인 ROCm은 오늘날까지도 사용 편의성과 안정성 면에서 CUDA에 비해 뒤처져 있습니다.

2012년 여름, 알렉스 크리제프스키는 ImageNet 대회에서 수백만 장의 이미지를 처리하는 데 어려움을 겪었습니다. 그의 CPU로는 감당할 수 없었기 때문입니다. 그는 CUDA가 매우 유용하다는 것을 발견하고, C와 유사한 언어로 수천 줄의 코드를 작성한 후 두 대의 GTX 580 GPU에서 실행했습니다.

이 결과는 전 세계 학계에 큰 파장을 일으켰습니다. 일반적으로 몇 주가 걸리는 실험이 GPU를 사용하니 단 며칠 만에 훨씬 더 높은 정확도로 결과를 얻을 수 있었습니다.

모바일 인터넷을 버리고 GPU 컴퓨팅으로 완전히 전환

2013년 GTC 컨퍼런스에서 젠슨 황은 당시로서는 거의 미친 짓처럼 들릴 만한 결정을 내렸습니다. 바로 회사의 초점을 GPU 컴퓨팅으로 완전히 돌리는 것이었습니다.

스마트폰 열풍이 절정에 달했던 모바일 인터넷의 황금기였습니다. 엔비디아는 모바일 시장에서 어려움을 겪었지만, 모바일 칩 분야에만 매달리지 않았습니다. 오히려 모든 자원을 데이터 센터 가속 컴퓨팅이라는 당시에는 틈새시장이었던 분야에 과감하게 재집중했습니다.

같은 해에 CUDA는 5.0/5.5 버전으로 업그레이드되면서 동적 병렬 처리 기능을 도입했습니다. 이 기능을 통해 GPU는 CPU에 다시 요청을 보내지 않고도 자체적으로 새로운 작업을 시작할 수 있어 통신 지연 시간을 크게 줄일 수 있습니다.

한편, NVIDIA는 심층 신경망을 위해 특별히 설계된 CUDA 딥러닝 라이브러리인 cuDNN 개발을 비밀리에 시작했습니다. 이 라이브러리는 작성하기 가장 어려운 컨볼루션 알고리즘을 기본 라이브러리 내에 직접 캡슐화하여 개발자가 단 하나의 명령으로 작업을 완료할 수 있도록 합니다.

하지만 AMD 그래픽 카드에서는 동일한 기능을 구현하려면 수백 줄의 복잡한 저수준 코드를 작성해야 합니다.

2014년, 딥러닝 프레임워크를 둘러싼 치열한 경쟁이 시작되었습니다. 구글이 텐서플로우(TensorFlow)를 오픈소스로 공개하자, 엔비디아는 즉시 수많은 엔지니어를 오픈소스 커뮤니티에 투입하여 CUDA 호환성 최적화 작업을 지속적으로 진행했습니다. 텐서플로우 1.0이 출시되었을 당시, 엔비디아 그래픽 카드에서의 성능은 AMD 그래픽 카드보다 몇 배나 뛰어났습니다.

"엔비디아 그래픽 카드를 사세요"라는 의견이 업계 전반에서 공감을 얻기 시작했습니다.

오늘날 CUDA는 단순한 개발 도구를 넘어 업계 표준 언어로 자리 잡았습니다. GitHub에 있는 수억 개의 AI 코드베이스가 CUDA 기본 요소를 사용하고 있으며, 거의 모든 대학 강의에서 CUDA를 기반으로 가르치고 있습니다. 이는 차세대 엔지니어들이 졸업하기도 전에 이미 NVIDIA 생태계에 완전히 익숙해져 있다는 것을 의미합니다.

GitHub에 있는 수억 개의 AI 코드베이스가 CUDA 기본 요소에 의존하고 있습니다. 대학 강의는 거의 전적으로 CUDA 교육을 기반으로 합니다. 이는 차세대 엔지니어들이 졸업하기도 전에 이미 NVIDIA 생태계에 "익숙해져 있다"는 것을 의미합니다.

CUDA 외에도 방대한 미들웨어 및 라이브러리 시스템이 존재합니다.

A. cuDNN 및 cuBLAS

심층 신경망 및 선형 대수 라이브러리는 10년 이상에 걸쳐 수동 어셈블리 수준 최적화 과정을 거쳤습니다.

B. 텐서RT

추론 최적화 엔진은 연산자를 자동으로 융합하고, 최적의 커널을 선택하며, 양자화 보정을 수행할 수 있습니다. 블랙웰 시대에 접어들면서 TensorRT-LLM은 대규모 언어 모델 배포의 표준이 되었으며, 경쟁사들이 따라잡기 어려운 FP4/FP8의 극단적인 최적화를 직접 지원합니다.

C. 트리톤 추론 서버

이는 클라우드 네이티브 AI 추론을 위한 사실상의 표준이 되었습니다.

젠슨 황, 일론 머스크, 오픈AI, "관심만 있으면 된다"... 2017년, 인공지능의 신이 나타났다.

2017년, NVIDIA의 Volta 아키텍처가 탄생했고, 플래그십 제품인 Tesla V100이 출시되었습니다. 이 칩에는 Tensor Core가 처음으로 탑재되었습니다.

이 순간부터 AI 컴퓨팅은 벡터 연산을 넘어 행렬 연산 시대로 진입했습니다. AI 컴퓨팅 성능은 폭발적으로 증가하며 새로운 시대를 열었습니다.

2016년 말, 젠슨 황은 세계 최초로 초기 가속기 카드가 장착된 슈퍼컴퓨터인 DGX-1을 당시에는 잘 알려지지 않았던 OpenAI 사무실에 직접 전달했습니다.

이렇게 해서 유명한 사진이 탄생했습니다. 사진 속에서 팔짱을 끼고 있는 사람은 다름 아닌 오픈AI의 설립자인 일론 머스크입니다. 이 기계는 훗날 GPT 시리즈 모델의 "선조"가 되었습니다.

2017년, 겉보기에는 관련이 없어 보이지만 오늘날의 상황을 형성하는 데 매우 중요한 사건이 발생했습니다. 바로 구글이 트랜스포머 아키텍처를 소개하는 논문 "Attention is All You Need"를 발표한 것입니다.

이 논문은 오늘날 대규모 언어 모델의 토대를 마련했고, 인공지능이 정보를 처리하는 방식을 완전히 바꿔놓았으며, ChatGPT, Claude, Gemini와 같은 후속 대규모 모델의 탄생으로 직접 이어졌습니다.

트랜스포머 아키텍처에서의 연산은 거의 전적으로 행렬 곱셈으로 구성되어 있어 컴퓨팅 성능을 극도로 많이 요구합니다.

행렬 곱셈, 왠지 익숙하게 들리시나요? 맞습니다. NVIDIA의 텐서 코어는 행렬 곱셈을 위해 특별히 설계되었습니다.

이로써 인공지능의 "캄브리아기 대폭발"이 시작되었습니다.

거시적인 관점에서 볼 때, 엔비디아의 지배적인 위치는 세 가지 기둥 위에 세워져 있습니다.

1) 텐서 코어 아키텍처

벡터 연산에서 행렬 연산으로, 범용 연산에서 딥러닝 특화 연산으로의 비약적인 발전을 이루었습니다.

2) CUDA 소프트웨어 생태계

NVIDIA의 가장 강력한 방어벽은 프로그래밍 언어뿐만 아니라 cuDNN 및 cuBLAS를 포함한 방대한 라이브러리 및 도구 모음으로, 이로 인해 마이그레이션 비용이 매우 높습니다.

3) NVLink 인터커넥트 기술

GPU 간 협업을 위한 다리.

간단히 말해, 이 셋 사이의 관계는 다음과 같습니다. Tensor Core는 하드웨어 혁신이고, CUDA는 소프트웨어 생태계이며, NVLink는 상호 연결 채널로, 각각 성능, 생태계 및 구성 가능성에 해당합니다.

텐서 코어는 엔비디아가 경쟁사들을 압도하고 인공지능 분야에서 패권을 확립하는 데 핵심적인 역할을 했습니다. 텐서 코어를 이해하지 못하면 최신 AI 칩을 이해할 수 없습니다.

텐서 코어는 GPU를 그래픽 렌더링 장치에서 AI 전용 컴퓨팅 플랫폼으로 완전히 탈바꿈시켰으며, 핵심 AI 연산인 행렬 곱셈에서 극강의 성능을 발휘하는 대신 다용성을 희생했습니다.

텐서 코어란 무엇인가요?

Tensor Core는 세 가지 핵심 개념으로 더 세분화될 수 있습니다.

1) 행렬 곱셈 2) 혼합 정밀도 3) 아키텍처 진화

1) 행렬 곱셈

벡터 연산에서 행렬 연산으로의 전환이 텐서 코어의 성능 향상을 뒷받침하는 핵심 논리입니다.

기존 CUDA 코어는 A + B와 같은 스칼라 또는 벡터 연산을 수행합니다. 동시 실행이 가능하더라도 각 사이클은 제한된 수의 데이터 포인트만 처리할 수 있습니다.

텐서 코어는 GPU 내부에 내장된 DSA(도메인 특화 아키텍처) 모듈로, 범용 GPU 아키텍처 내부에 ASIC 수준의 전용 가속 장치를 내장하는 것과 같습니다.

텐서 코어는 모든 유형의 명령어를 실행하도록 설계된 것이 아니라, 행렬 곱셈 및 누적, 즉 D = A × B + C와 같은 특정 연산에 특화되어 있습니다.

쉽게 말해 벡터 계산은 계산 지시를 한 줄씩 내리는 것과 같고, 행렬 계산은 전체 표(4×4 행렬)를 직접 출력하는 것과 같습니다.

2) 혼합 정밀도 – 흐림의 기술

인공지능의 본질은 확실성이 아니라 확률입니다.

이미지에 고양이가 있는지 개가 있는지 판별하는 확률은 98.0001%와 98.0000000001% 사이에 차이가 없습니다. 하지만 정밀도의 차이는 계산 효율성에 엄청난 차이를 가져옵니다.

혼합 정밀도란 결과의 정확도를 손상시키지 않으면서 최대 효율을 달성하기 위해 가능한 가장 낮은 정밀도를 사용하는 것을 의미합니다.

A. 정확도를 어떻게 측정하나요?

여기서 FP(Floating Point)라는 개념을 소개해야 합니다. FP는 부동 소수점 숫자를 의미합니다.

컴퓨터는 내부적으로 0과 1(비트)을 사용하여 모든 숫자를 구성합니다. 부동 소수점 숫자는 일반적으로 세 부분으로 구성됩니다.

1) 부호 비트: 숫자가 양수인지 음수인지를 나타냅니다. 2) 지수: 숫자의 크기 범위를 결정합니다. 3) 가수/소수점 이하 자릿수: 숫자의 정밀도, 즉 소수점 이하 몇 자리까지 있는지를 결정합니다.

대표적인 예로 FP32가 있는데, 이는 숫자를 기록하는 데 32비트를 사용하여 매우 정확하지만 많은 저장 공간을 필요로 합니다.

FP16은 저장 공간을 절반으로 줄이고 속도를 두 배로 높이지만, 정확도와 범위는 그에 따라 감소합니다. FP4는 픽셀 아트와 유사하게 정밀도가 매우 낮아 매우 흐릿한 값만 기록할 수 있습니다.

컴퓨터 과학에서 이는 본질적으로 효과적인 정보 내용(정보 엔트로피), 계산 처리량 및 수치적 안정성 사이에서 최적의 솔루션을 찾는 것입니다.

B. 혼합 정밀도는 어떻게 작동하나요?

a. 정밀도 저하

계산 과정에서 Tensor Core는 원래의 32비트 입력을 16비트로 변환합니다.

FP32: 부호 비트 1개 + 지수 비트 8개 + 가수 비트 23개. FP16: 부호 비트 1개 + 지수 비트 5개 + 가수 비트 10개.

가수 부분이 23에서 10으로 줄어들어 행렬 곱셈 단계에서 계산 부담이 4배 이상 감소했습니다.

b. 누적 보호

이것이 바로 텐서 코어 설계의 가장 독창적인 측면입니다.

입력은 FP16이지만, 누적 연산에는 FP32가 사용됩니다. (덧셈 연산에도 FP32가 사용된다는 점에 유의하세요.)

그 이유는 곱셈에서는 작은 오차가 안전하지만, 수만 번의 덧셈 과정에서 아주 작은 값들이 계속해서 버려지면 오차가 급격히 커지기 때문입니다. NVIDIA는 높은 정밀도로 누적 계산을 수행함으로써 최종 결과의 정확성을 보장합니다.

c. 손실 규모 조정 – 언더플로우 방지

AI 학습에서 FP16을 전체적으로 사용하면 모델이 제대로 작동하지 않습니다. 이는 일부 핵심 데이터의 크기가 극히 작아서 FP16으로는 표현할 수 없기 때문입니다. 이러한 문제를 언더플로우(underflow)라고 합니다.

해결책은 계산 전에 손실 값에 큰 계수(예: 1024)를 곱하여 이러한 미세한 기울기를 FP16이 표현할 수 있는 유효 범위 내로 강제로 밀어 넣는 것입니다. 계산 후에는 1024로 나누어 원래 값을 복원합니다.

C. 혼합 정밀도의 한계 – 마이크로 스케일링 포맷(MX)

NVIDIA V100은 FP16을 지원하고, H100은 FP8을 지원하며, B200은 이를 FP4로 더욱 낮춥니다.

FP4는 FP16보다 훨씬 빠르지만, 표현할 수 있는 값의 수는 2⁴ = 16개에 불과합니다. 이미지에는 16개보다 훨씬 많은 색상 값이 포함되어 있다는 점을 고려하면, AI는 반 고흐의 "해바라기"와 "별이 빛나는 밤"을 구분할 수 없을 것입니다.

따라서 NVIDIA는 블랙웰 아키텍처에서 블록 부동 소수점을 핵심 개념으로 하는 마이크로스케일링 포맷을 도입했습니다.

쉽게 말해, AI 네트워크의 동일한 벡터 블록 내에서는 수치 값들의 크기가 비슷한 경우가 많습니다. 따라서 각 값을 개별적으로 스케일링하는 대신, 일괄 처리 방식으로 처리하는 것이 더 효율적입니다. 일괄 처리된 값들 중에서 절댓값이 가장 큰 값을 찾아, 이 값을 공통 스케일링 계수로 사용하는 것입니다.

가장 어려운 상황은 데이터 세트에 최댓값이 하나 있고 나머지는 모두 최솟값인 경우입니다.

마치 태양과 희미한 반딧불이가 함께 담긴 사진과 같습니다. AI 트랜스포머의 특정 레이어에서 이러한 "이상치"가 종종 나타납니다.

바로 이러한 이유 때문에 엔비디아는 블랙웰 아키텍처에서 FP8과 FP16을 완전히 버리지 않고 소프트웨어 수준에서 이를 개선하는 데 많은 노력을 기울였습니다.

3) 건축의 진화

기억하기 아주 쉬운 방법이 있습니다.

볼타가 탄생했고, 암페어가 주류로 자리 잡았으며, 호퍼의 인기가 폭발했고, 지금은 블랙웰이 가장 인기 있는 브랜드입니다.

연도가 늦을수록, 아키텍처 이름이 늦어질수록, 지원되는 정밀도(FP 뒤의 숫자)가 작아질수록, 행렬 연산의 규모가 커질수록, 인공지능은 더욱 인간과 유사해집니다.

2017 볼타(V100): 극도로 위험한 도박

2017년 볼타(Volta) 출시는 엔비디아 발전의 중요한 전환점이 되었습니다.

이전에는 GTX 1080 Ti와 같은 파스칼 아키텍처가 주로 게임의 시각적 효과를 향상시키는 데 초점을 맞췄습니다.

볼타를 시작으로 젠슨 황은 당시에는 매우 위험해 보였지만 돌이켜보면 천재적인 결정으로 입증된 선택을 했습니다. 바로 정밀도를 낮추는 대신 극도의 AI 컴퓨팅 효율성을 추구하여 GPU를 범용 컴퓨팅 장치에서 AI 전용 플랫폼으로 전환한 것입니다.

2017년 이전에는 기상 시뮬레이션이나 핵폭발 시뮬레이션과 같은 과학 컴퓨팅 분야에서 절대적인 정확도가 요구되었고, 모두가 FP32 단정밀도 또는 FP64 배정밀도 연산 능력 경쟁을 벌였습니다.

하지만 갑자기 인공지능이 폭발적으로 성장했습니다. 그리고 인공지능 네트워크는 놀라울 정도로 "잡음에 강합니다."

인공지능을 훈련시키는 것은 아이에게 고양이를 알아보는 법을 가르치는 것과 같습니다. 아이에게 고양이 귀의 길이가 3.1415926센티미터라고 말할 필요가 없습니다. 그냥 "약 3센티미터"라고만 말해도 충분합니다.

NVIDIA는 V100에서 혼합 정밀도를 적극적으로 홍보하고 있습니다. FP16 반정밀도는 연산에 사용되고, FP32 고정밀도는 오류 누적을 방지하기 위한 누적 연산에 사용됩니다. 이는 마치 정자체에서 필기체로 바꾸는 것과 같아서, 속도는 순식간에 두 배로 빨라지지만 AI 정확도는 거의 떨어지지 않습니다.

당시로서는 매우 위험한 결정이었습니다. 당시 소수의 사람들만이 사용하던 행렬 연산을 위한 전용 회로를 만들기 위해 엄청나게 비싼 칩의 넓은 영역을 할애하는 것은 매우, 매우, 매우 위험한 결정이었습니다.

하지만 젠슨 황과 엔비디아는 AI의 폭발적인 성장에 제대로 투자했습니다.

이것이 바로 인텔과 같은 다른 경쟁업체들이 오늘날까지 뒤처지고 있는 이유입니다.

2018년 튜링(T4) 아키텍처 출시로 게임 그래픽 분야에 혁명적인 발전이 이루어졌습니다: 레이 트레이싱과 DLSS 기술 도입

이 시점에도 칩의 주요 용도는 여전히 게임 그래픽 렌더링이었습니다.

2018년 엔비디아는 튜링 아키텍처(RTX 2080 Ti)를 출시했습니다. 이는 그래픽 카드 역사상 처음으로 완전히 다른 세 가지 유형의 프로세서가 하나의 실리콘 칩에 탑재된 사례였습니다.

먼저 배경 설명을 드리겠습니다.

이전에는 게임 그래픽 렌더링에 래스터화, 즉 2D 텍스처 매핑 방식이 사용되었습니다. 게임을 많이 해보신 분이라면 이 방식이 매우 익숙하실 겁니다. 예를 들어, 물에 비친 그림자는 실제로 미리 그려진 후 적용되는 방식입니다. 플레이어의 시점이 바뀌더라도 그림자는 완벽하게 고정되어 있습니다.

레이 트레이싱은 실제 물리 세계의 조명 및 그림자 효과를 시뮬레이션합니다. 게임에서 빛과 반사는 플레이어의 시점과 광원에 따라 실시간으로 변화합니다.

레이 트레이싱이 이전에도 불가능했던 것은 아니지만, 계산 부하가 너무 커서 게임이 슬라이드쇼처럼 버벅거렸습니다.

튜링 아키텍처에는 RT 코어, CUDA 코어, 텐서 코어라는 세 가지 완전히 다른 유형의 프로세서가 있습니다.

1) RT 코어(레이 트레이싱 코어)

이는 튜링 아키텍처에서 개발된 혁신적인 기능으로, 특히 광선과 삼각형의 교차점(BVH 순회)을 계산하기 위해 설계되었습니다. 그 기능은 매우 특수하며, 오직 광선 추적 계산에만 사용됩니다. 이러한 번거로운 기하학적 연산을 범용 코어에서 분리함으로써 효율성이 수십 배 향상되었습니다.

2) CUDA 코어(범용 컴퓨팅 코어)

이 시스템은 기존의 래스터화 렌더링 작업을 계속 수행할 것입니다.

3) 텐서 코어(혼합 정밀도 컴퓨팅 코어)

INT8, INT4, INT1에 대한 지원이 추가되었고, 저정밀 추론 기능이 도입되었으며, 소비자용 그래픽 카드(RTX 20 시리즈)에 텐서 코어가 처음으로 탑재되었습니다.

여기에는 DLSS(딥러닝 슈퍼 샘플링)라는 훌륭한 발명품이 숨겨져 있습니다.

논리는 레이 트레이싱 계산이 너무 복잡하기 때문에 먼저 1080p 이미지를 렌더링한 다음, 텐서 코어를 사용하여 신경망을 실행하여 1080p 이미지를 4K로 "채워 넣는" 방식이라는 것입니다.

이는 그래픽 분야에서 AI 기반 콘텐츠가 대규모로 적용된 첫 사례이며, AI가 기존 그래픽 제작 파이프라인의 일부가 될 수 있음을 입증합니다.

2018년경, 전통적인 성능 향상은 한계에 도달했습니다. 엔비디아의 공격적인 레이 트레이싱 전략은 그래픽 카드 품질 측정 기준을 사실상 재정립했습니다. AMD나 인텔이 이를 따라하고 싶어 했더라도, 텐서 코어와 같은 효율적인 하드웨어가 부족했습니다.

다시 말해, 엔비디아는 "알고리즘 + 하드웨어 + 학습 데이터"를 아우르는 포괄적인 차단벽을 구축했습니다.

레이 트레이싱과 텐서 코어의 결합은 예상치 못하게 메타버스 및 디지털 트윈의 가능성을 열어주었습니다.

텐서 코어는 AI를 사용하여 게임 비주얼을 완성할 수 있으므로, 몇 장의 사진만으로 사실적인 3D 공간을 직접 "구축"할 수 있을까요? 이는 최근 몇 년 동안 매우 인기를 얻고 있는 NeRF(신경 방사장) 기술로, 단 몇 초 만에 비디오에서 3D 모델을 생성할 수 있게 해줍니다.

2020년의 암페어(A100) - 역사상 가장 성공적인 AI 칩

"사용성 혁명"이라는 용어는 A100을 완벽하게 요약합니다. A100 이전에는 컴퓨팅 분야가 세 가지 문제에 직면했습니다. 1) 정밀도 분산: FP32는 너무 느리고 FP16은 관리하기 너무 어려웠습니다. 2) 연산 능력 분산: 학습 카드와 추론 카드가 서로 호환되지 않았습니다. 3) 자원 분산: 대형 모델은 제대로 활용되지 못하는 반면 소형 모델은 과부하 상태였습니다.

NVIDIA는 A100에 다음과 같은 혁신적인 개선 사항을 적용했습니다. 1) TF32(TensorFloat-32) 2) 구조적 희소성 3) MIG(다중 인스턴스 GPU)

이 세 가지 요소의 결합된 노력으로 단일 칩의 통합이 가능해졌습니다.

텐서플로트-32(TF32)

정말 훌륭한 디자인입니다. 앞서 언급했듯이, 인공지능 컴퓨팅은 이전에 날씨 시뮬레이션, 입자 시뮬레이션, 핵폭발 궤적 예측과 같은 시나리오에 고정밀 방법을 사용했던 것을 기억하시나요?

TF32를 사용하면 고정밀 FP32 코드를 작성하는 데 익숙한 개발자가 코드를 수정하지 않고도 Tensor Core의 퍼징 정확도 가속 기능을 직접 활용할 수 있습니다.

TF32는 완전히 새로운 저장 형식이 아니라 연산을 위한 중간 형식입니다.

가속은 FP32를 "절단"함으로써 달성되는데, 이는 본질적으로 계산 정확도와 수치 범위의 균형을 맞추도록 설계된 새로운 수학적 형식입니다.

이전 글에서 언급했듯이 컴퓨터 내부의 모든 숫자는 0과 1(비트)로 구성됩니다. 부동 소수점 숫자는 일반적으로 세 부분으로 이루어져 있습니다. 1) 부호 비트: 숫자가 양수인지 음수인지를 나타냅니다. 2) 지수: 숫자의 크기 범위를 결정합니다. 3) 가수(또는 소수 부분): 숫자의 정밀도, 즉 소수점 이하 자릿수를 결정합니다.

일반적인 예로는 FP32가 있는데, 이는 숫자를 기록하는 데 32비트를 사용하여 매우 정확하지만 많은 저장 공간을 필요로 합니다. FP16은 필요한 공간을 절반으로 줄이고 속도를 두 배로 높이지만 정확도와 표현 범위는 그에 따라 줄어듭니다. FP4는 픽셀 아트처럼 정밀도가 매우 낮아 매우 흐릿한 값만 기록할 수 있습니다.

TF32의 뛰어난 점은 FP32의 범위와 FP16의 정밀도를 결합하여 19비트 형식을 구현했다는 것입니다. 1비트는 부호 비트, 8비트는 지수(FP32와 동일), 10비트는 가수(FP16과 동일)로 구성됩니다.

다시 말해, TF32는 FP32와 FP16을 이어주는 다리 역할을 합니다. 정말 멋지지 않나요?!

TF32의 워크플로는 다음과 같습니다. TF32는 비디오 메모리에서 표준 FP32 데이터를 읽습니다. 텐서 코어는 하드웨어 회로에서 23비트 가수 부분을 자동으로 10비트로 잘라내고 TF32 형식으로 변환합니다. 이 형식에서 효율적인 곱셈이 수행됩니다. 모든 중간 연산 결과는 최종적으로 FP32 정밀도로 누적됩니다. 비디오 메모리에 다시 기록되는 데이터는 여전히 표준 FP32 형식입니다.

더욱 중요한 것은 절단 과정이 완전히 자동화되어 있다는 점이며, 이는 수치적 언더플로우 문제를 자동으로 처리할 수 있음을 의미합니다.

구조적 희소성

희소성의 핵심은 중요하지 않은 픽셀의 가중치를 0으로 줄이는 것입니다. 고양이 사진을 인식하는 경우처럼, 대부분의 픽셀은 결정적인 역할을 하지 않습니다.

엔비디아는 연속된 네 개의 가중치 중 두 개를 0으로 설정해야 한다고 규정합니다. 원래 64비트의 데이터가 필요했던 것이 이제 약 34비트만 필요하게 되어 모델의 메모리 사용량이 거의 절반으로 줄어듭니다.

예를 들어, 그래픽 카드에 80GB의 비디오 메모리가 있는 경우 400억 개의 매개변수를 가진 모델만 저장할 수 있습니다. 구조적 희소성을 활성화하면 약 700억 개 또는 800억 개의 매개변수를 가진 모델을 적합시킬 수 있습니다.

게다가 성능도 두 배로 향상되었습니다. 집중 컴퓨팅은 156 TFLOPS(초당 156조 연산)를 달성하는 반면, 희소 컴퓨팅은 312 TFLOPS를 달성합니다.

앞서 언급한 기존 FP32 대비 TF32의 거의 10배에 달하는 성능 향상을 고려하면, A100은 특정 AI 작업을 처리할 때 몇 년 전의 구형 그래픽 카드보다 한 세대나 빠른 속도를 보여준다는 것을 알 수 있습니다.

네 가지 가중치 모두 중요해서 핵심 정보를 놓칠 수 있다는 우려에 대해 말씀드리자면, 우선 모델이 아직 "최종 확정"되지 않은 상태에서는 가중치를 조정할 수 있습니다.

둘째로, 신경망은 내결함성이 매우 뛰어납니다. 작은 영역에서 정보 손실이 발생하더라도 다른 계층이 학습을 통해 이러한 손실을 보완할 수 있습니다.

또한, 희소성은 무작위 삭제를 통해 달성되는 것이 아니라 가중치에 기반한 가지치기를 통해 달성됩니다.

MIG(다중 인스턴스 GPU)

MIG는 칩 공간 관리에 사용되며, 물리적 회로 수준에서 단일 GPU를 "하드 파티셔닝"합니다. 맞습니다, 물리적 파티셔닝입니다.

A100에서 MIG는 GPU를 최대 7개의 독립적인 인스턴스로 분할할 수 있으며, 각 인스턴스는 자체 전용 Tensor Core와 메모리 경로를 갖습니다.

파티셔닝 방식은 7개의 작은 인스턴스로 분할하거나, 1개의 큰 인스턴스와 3개의 작은 인스턴스로 분할하는 등 유연하고 다양합니다. 하드웨어는 공장에서 이러한 "파티셔닝" 기능을 제공하지만, 구매 후에는 소프트웨어 명령을 통해 파티셔닝 방식과 분할할 파티션 수를 실시간으로 제어할 수 있습니다.

A100의 하드웨어 아키텍처에서 MIG는 주로 세 가지 유형의 코어 리소스를 할당합니다. 1) SM(스트리밍 멀티프로세서): CUDA 코어 및 텐서 코어를 포함한 연산 코어. 2) 메모리 시스템: HBM2 비디오 메모리 및 L2 캐시 포함. 3) 대역폭(경로): 온칩 데이터 전송 채널.

각 인스턴스는 자체적으로 독립적이고 고정된 메모리 주소 공간과 컴퓨팅 경로를 갖습니다. 즉, 인스턴스 A가 데이터를 집중적으로 읽고 쓰는 동안 발생하는 전자기 신호와 버스 사용량은 인스턴스 B에 전혀 영향을 미치지 않습니다.

이것의 이점은 분명합니다.

첫째, 활용도를 크게 향상시키고 비용을 절감합니다. A100 카드는 수만 달러에 달하는데, 박사 과정 학생 한 명이 실험에 사용하는 경우라면 너무 과도한 비용입니다. MIG를 사용하면 기업에서 7명의 엔지니어가 동일한 카드에서 동시에 서로 다른 실험을 수행할 수 있어 효율성이 7배 향상됩니다.
둘째로, 클라우드 임대 시장에서 매우 인기가 높습니다. 클라우드 서비스 제공업체는 필요에 따라 컴퓨팅 파워를 유연하게 임대할 수 있습니다.

좀 더 넓은 관점에서 되돌아보면:

Volta(2017): 범용 컴퓨팅을 위한 CUDA 코어가 더 이상 유일한 주역이 아니며, 행렬 컴퓨팅을 위한 Tensor 코어가 AI 시대의 핵심이라는 것을 입증했습니다.
튜링(2018): 높은 정밀도가 항상 더 좋은 것은 아니며, 추론 시대에는 낮은 정밀도의 INT8/INT4가 나아갈 방향임을 증명했습니다. 동시에 인공지능이 컴퓨터 그래픽에 기여할 수 있음을 증명했습니다.
Ampere(2020): 분할이 비효율적이며 통합이 궁극적인 해결책임을 입증합니다. 학습과 추론이 동일한 실리콘 칩(A100)에 통합되었으며, 희소성과 TF32가 "무차별 대입 정밀도"보다 생산성이 더 높다는 것을 보여줍니다.

2022년 상반기에 들어가기 전에, 엔비디아가 독점적인 지위를 누리게 해준 또 다른 핵심 혁신 기술인 NVLink를 먼저 소개해야 합니다.

텐서 코어가 칩의 심장이라면, NVLink는 수만 개의 심장을 연결하는 주요 동맥과 같습니다.

NVLink: GPU 간 고속 포인트 투 포인트 상호 연결 프로토콜

NVLink는 GPU 간의 고속 포인트 투 포인트 상호 연결 프로토콜로, GPU 간에 고속도로를 구축하여 CPU를 거치지 않고 직접 통신할 수 있도록 합니다.

NVLink의 유일한 목적은 PCIe 병목 현상을 제거하는 것입니다.

PCIe 병목 현상이란 무엇입니까?

PCIe(Peripheral Component Interconnect Express)는 컴퓨터 마더보드에 있는 범용 버스로, 원래 CPU가 그래픽 카드, 사운드 카드, 네트워크 카드, 하드 드라이브와 같은 다양한 주변 장치에 연결할 수 있도록 설계되었습니다.

AI 시나리오에서 병목 현상은 주로 다음과 같은 부분에서 나타납니다.

1) 대역폭 부족. 최신 PCIe 5.0 x16의 이론적인 대역폭은 약 63GB/s로 빠르다고 생각할 수 있지만, H100의 메모리 대역폭은 최대 3,350GB/s에 불과합니다. 이는 GPU가 내부적으로 매우 빠른 계산을 수행하지만, 데이터 입출력 속도가 내부 계산 속도보다 50배 느리다는 것을 의미합니다.

2) 높은 지연 시간. PCIe 데이터 전송에는 CPU 개입이 필요합니다. 데이터는 먼저 그래픽 카드 A에서 CPU로 전송된 후 CPU를 통해 그래픽 카드 B로 전달되므로 상당한 지연 시간이 발생합니다.

이러한 병목 현상이 발생하는 이유는 무엇일까요? 주된 이유는 PCIe가 원래 범용으로 설계되었기 때문입니다.

덧붙여 말하자면, 범용 기술과 AI 전용 기술 간의 상충 관계는 엔비디아의 성장 과정 내내 지속적으로 나타났으며, 엔비디아가 인텔을 제칠 수 있었던 핵심 이유이기도 합니다. 인텔의 강점은 강력하고 다재다능한 CPU에 있지만, 바로 이 점이 AI 컴퓨팅의 병목 현상을 야기하는 요인입니다.

엔비디아의 성공은 인공지능 컴퓨팅이라는 전문 분야에 과감하게 투자했기 때문이며, 그 투자는 옳았습니다.

물리적 한계, 프로토콜 오버헤드, 위상 불일치라는 세 가지 보다 전문적인 차원에서 일반성과 특수성 간의 절충점을 더 잘 이해할 수 있습니다. 1) 위상 불일치. PC 또는 서버 아키텍처에서 모든 PCIe 레인은 궁극적으로 CPU로 수렴합니다.

CPU는 마치 모든 차량이 돌아가야 하는 회전교차로와 같습니다. 아무리 강력한 GPU가 있더라도 CPU가 처리 요구량을 따라가지 못하거나 CPU에 연결된 대역폭이 포화 상태에 이르면 데이터 교환 속도가 느려집니다. 이를 CPU 병목 현상이라고 합니다.

2) 프로토콜 오버헤드. PCIe는 데이터 패킷을 전송할 때 메시지 헤더 및 체크섬과 같은 추가 정보가 필요합니다. 전송이 완료되면 CPU가 후속 로직을 처리할 수 있도록 CPU에 "인터럽트 요청"을 보내야 합니다.

3) 물리적 간섭. 표피 효과 – 주파수가 높을수록 전기 신호가 전선 표면을 따라 흐르는 경향이 커져 저항이 증가하고 신호 감쇠가 발생합니다.

NVLink는 어떻게 PCIe 병목 현상을 해결합니까?

앞서 언급한 내용으로 돌아가서, NVLink의 유일한 목적은 PCIe 병목 현상을 제거하는 것입니다. 그렇다면 NVLink는 어떻게 이를 달성할까요? 단계별로 살펴보겠습니다.

1) 위상 재구성

NVLink는 CPU와 시스템 메모리를 완전히 우회하여 GPU 간 직접적인 지점 간 통신을 가능하게 합니다.

2) 극도로 간소화된 프로토콜

NVLink는 메모리와 유사한 전송 프로토콜을 사용하는데, 이 프로토콜은 프로토콜 오버헤드가 매우 낮고 PCIe보다 훨씬 높은 페이로드 비율을 가지고 있습니다.

3) 물리 계층 업그레이드: 다중 채널 병렬 처리 및 고대역폭

NVIDIA는 H100 칩 뒷면에 18개의 NVLink 링크를 촘촘하게 배치하여 총 900GB/s의 양방향 대역폭을 구현했습니다. 반면 PCIe 5.0 x16은 63GB/s에 불과합니다. NVLink의 속도는 PCIe보다 14배 이상 빠릅니다.

4) 멀티 GPU 통합: 메모리 풀링 및 NVSwitch

엔비디아는 케이블뿐만 아니라 NVSwitch라는 전용 스위치 칩도 제작했습니다. 서버 내부의 모든 GPU는 NVSwitch에 연결됩니다.

NVLink 네트워킹: 지점 간 연결에서 완벽한 연결까지

또한 NVLink는 여러 GPU를 하나의 통합된 시스템으로 연결하여 더 큰 모델을 로드할 수 있습니다. 이를 이해하기 위해서는 세 가지 추가적인 핵심적인 측면을 살펴볼 필요가 있습니다.

1) NVSwitch – 고속도로에서 고가도로까지

NVSwitch는 GPU 칩 내부에 통합되어 있지 않고, GPU 기판에 장착된 별도의 스위치 칩입니다. NVLink가 고속도로라면 NVSwitch는 고가도로와 같습니다.

A100 이전에는 GPU가 주로 포인트 투 포인트 방식으로 연결되었습니다. H100 이후 NVSwitch가 도입되면서 GPU는 포인트 투 포인트 통신에서 네트워크 시대로 전환되어 여러 카드를 하나의 큰 네트워크로 연결하고 더 큰 규모의 모델을 로드할 수 있게 되었습니다.

지점 간 통신의 한계를 상상해 보세요. 카드가 8개 있다고 가정할 때, 카드 A와 카드 B는 NVLink로 물리적으로 연결되어 있지만, 카드 A가 카드 D와 통신하려면 B와 C를 중간 매개체로 거쳐야 하므로 이들의 대역폭을 소모하게 됩니다.

H100을 예로 들면, GPU 하단에는 18개의 4세대 NVLink 링크가 있으며, 이 링크들은 마더보드의 NVLink 백플레인에 연결됩니다. 8개의 카드 중 4~6개에는 전용 NVSwitch 칩이 장착되어 있습니다. 각 GPU의 모든 NVLink 경로는 다른 카드에 직접 연결되는 것이 아니라 이러한 스위치에 직접 연결됩니다.

이 토폴로지는 마더보드의 CPU나 PCIe 버스를 거치지 않고 두 카드 간의 통신을 보장합니다.

좀 더 기술적으로 말하자면, NVSwitch의 핵심 기술 사양은 논블로킹 전이중 대역폭으로, 이를 통해 모든 GPU가 다른 GPU와 동시에 최고 속도로 통신할 수 있습니다.

2) 네트워크 컴퓨팅(SHARP) – 스위치가 데이터를 전송하는 동안 계산을 수행할 수 있도록 합니다.

네트워크 컴퓨팅은 NVIDIA의 또 다른 획기적인 기술로, 컴퓨터 통신의 근본적인 논리를 바꿔놓았습니다. 네트워크 스위치는 더 이상 단순히 데이터를 전송하는 데 그치지 않고, 전송 중에 직접 수학적 계산을 수행합니다.

대규모 AI 모델 학습 과정에서 수백만 번 반복되는 작업이 하나 있는데, 바로 그래디언트 집계(All-Reduce)입니다.

간단히 말해, 그래디언트 집계는 학습에 참여하는 모든 GPU가 계산 결과를 교환할 수 있도록 하여 궁극적으로 각 카드가 정확히 동일한 집계된 최신 데이터를 갖도록 보장합니다.

그래디언트 집계는 블록체인의 분산 컴퓨팅과 다소 유사합니다. 이름에서 알 수 있듯이, 주요 단계는 "그래디언트"와 "집계" 두 가지입니다.

대규모 모델을 학습시키려면 병렬 컴퓨팅이 필요합니다. 각 그래픽 카드는 데이터의 일부를 받아 해당 부분에 대한 오차 방향, 즉 기울기를 계산합니다.

각 카드가 서로 다른 데이터를 보기 때문에 계산된 기울기도 다릅니다. 각 카드를 직접 업데이트하면 서로 다른 카드의 모델이 완전히 잘못된 방향으로 움직이게 됩니다.

따라서 가중치를 업데이트하기 전에 모든 카드는 기울기를 합산하고 평균을 계산해야 합니다. 모든 카드가 이 전체 평균 기울기를 받은 후 동기적으로 업데이트되어 8개 카드의 모델이 항상 동일하도록 합니다.

기울기 집계에 대한 구체적인 계산 방법에 관하여.

A100은 당시 가장 대역폭 효율이 높은 알고리즘이었던 링 올리듀스(Ring All-Reduce) 방식을 사용합니다. 이 방식은 데이터를 N개의 조각으로 나누어 릴레이 경주처럼 순차적으로 전달합니다.

SHARP는 NVIDIA에서 현재 적극적으로 홍보하고 있는 트리형 집계(Tree All-Reduce) 방식을 사용합니다. 이 방식에서는 데이터가 나무의 뿌리처럼 계층별로 수렴합니다. GPU는 데이터를 첫 번째 계층인 NVSwitch로 전송합니다. SHARP 기술은 스위치 칩이 여러 GPU에서 데이터 스트림을 수신하는 동안 직접 덧셈 연산을 수행하고, 그 결과를 각 GPU 칩으로 다시 전송합니다.

왜 그래디언트 집계(All-Reduce)가 AI의 생명줄일까요?

GPU 클러스터의 품질을 평가하는 기준은 단일 카드의 속도가 아니라, 카드 수가 1000개로 증가했을 때에도 그래디언트 집계 시간을 밀리초 단위로 제어할 수 있는지 여부입니다.

GPU의 연산 능력이 뛰어나더라도(예: H100) 네트워크 성능이 약하면 GPU는 시간의 70%를 그래디언트 집계에 소비하게 됩니다. 즉, 데이터를 기다리는 데 시간을 쓰고 실제로 AI 계산을 수행하는 데는 30%밖에 사용하지 못하는 것입니다. 이것이 바로 통신 제약 조건입니다.

NVLink, NVSwitch, SHARP와 같은 기술의 존재 이유는 본질적으로 그래디언트 집계를 위한 가장 빠른 채널을 제공하기 위함입니다.

다음으로, 2022년에는 NVIDIA의 획기적인 H100 제품이 주목을 받을 것입니다.

2022 호퍼(H100) – 현대 대형 모형의 초석이 되는 트랜스포머 엔진.

2022년에 발사된 H100은 핵폭탄으로 묘사될 수 있습니다.

H100은 특정 소프트웨어 알고리즘인 Transformer를 칩에 직접 내장하여 수조 개의 매개변수를 가진 대규모 언어 모델(LLM)을 처리하도록 특별히 설계되었습니다.

2022년 상반기 수치는 그야말로 핵폭탄급이었다.

트랜스포머 아키텍처는 구글이 2017년에 발표한 논문 "Attention Is All You Need"에서 유래했으며, 현대 대규모 언어 모델의 기반이 됩니다. 트랜스포머 엔진은 H100 내부에 있는 물리적 모듈로, 소프트웨어가 아닌 하드웨어로 구현된 회로입니다.

한편, FP8 정밀도를 활용하는 H100은 A100보다 9배 빠른 학습 성능을 제공합니다. NVLink 스위치와 결합하여 256개의 GPU를 거대한 슈퍼 브레인으로 변모시킵니다. H100이 없었다면 ChatGPT도, 수조 개의 매개변수를 가진 대규모 모델 시대도 없었을 것입니다.

H100에 대한 연구는 다음 네 가지 측면에서 접근할 수 있습니다.

1) Tensor Core는 Transformer 엔진과 FP8을 도입했습니다.

2) 4세대 NVLink 및 NVSwitch는 900GB/s의 대역폭을 달성합니다.

3) 새로운 CUDA 기능 소개 - 동적 프로그래밍 가속화를 위한 DPX 명령어 세트;

4) 개인정보 보호 컴퓨팅을 지원하는 세계 최초의 GPU.

Tensor Core는 Transformer 엔진과 FP8을 도입했습니다.

H100에서 FP8은 마치 전투에 돌격하는 실행자처럼 작동합니다. 추론 및 학습을 위한 대부분의 행렬 곱셈은 FP8에서 실행할 수 있습니다.

FP16은 마치 노련하고 신중한 공무원처럼 낮은 정밀도로 인한 업데이트 볼륨 손실을 방지하기 위해 복사본을 보존하고, 속도와 안정성의 균형을 유지하면서 가교 역할을 수행합니다.

FP32는 저장 및 가중치 업데이트에 사용되는데, 이는 낮은 정밀도의 누적 과정에서 미묘한 기울기가 "반올림"되어 오류가 누적되고 학습이 중단되기 때문입니다.

FP8은 제한된 GPU 메모리로도 수조 개의 매개변수를 가진 모델을 학습시킬 수 있게 해 주어 처리량을 두 배로 늘립니다.

DPX 명령어 세트: 간편하게 크기를 비교하세요

DPX는 기본적으로 엔비디아가 "덧셈을 수행한 후 크기를 비교"하기 위해 칩에 내장한 단축키입니다.

체스판 위에서 왼쪽 위 모서리에서 오른쪽 아래 모서리로 이동한다고 상상해 보세요. 각 이동에는 비용이 발생하며, 가장 비용이 적은 경로를 찾아야 합니다. 따라서 위에서 오는 경로, 왼쪽에서 오는 경로, 그리고 대각선 위로 오는 경로의 비용을 살펴보고 가장 저렴한 경로를 선택합니다.

이 동작의 구조를 살펴보세요. 먼저 더한 다음, 더 작은 쪽을 비교합니다.

체스판 전체에는 수백만, 심지어 수십억 개의 칸이 있으며, 이 작업은 모든 칸에서 수행되어야 합니다. 이것이 바로 동적 프로그래밍의 일상적인 작업입니다.

H100의 DPX는 이 두 단계를 하나로 결합합니다. "납땜"이라는 단어를 사용하는 이유는 실제로 칩에 하드웨어 구조가 존재하기 때문입니다.

DPX는 텐서 코어와 같은 대규모 전용 셀을 추가할 필요가 없습니다. 기존 정수 연산 경로에 "편리한 비교" 기능을 추가하기만 하면 되므로 칩 면적 오버헤드는 최소화하면서 이점은 매우 큽니다.

예를 들어, 유전자 염기서열 분석은 한 번에 수십억 개의 염기쌍을 비교하는 작업이며, 이 작업은 각 염기쌍마다 수행되어야 합니다. 명령어 하나를 절약하는 것이 수십억 개의 연산에 곱해지면 상당한 시간 절약으로 이어집니다.

또한 H100은 하드웨어 수준의 TEE를 지원하는 세계 최초의 GPU로서, 개인 정보 보호 컴퓨팅에 새로운 장을 열었습니다.

TMA(텐서 메모리 가속기): 비동기 데이터 전송 엔진

TMA는 SM 마이크로아키텍처 수준에서 H100의 가장 중요한 변화 중 하나이며, 텐서 코어와 트랜스포머 엔진이 최대 성능으로 작동할 수 있는지 여부를 직접적으로 결정합니다.

간단히 말해, TMA는 엔비디아가 칩 내부에 전용 데이터 전송기를 설치하여 작업 스레드가 더 이상 데이터 저장소에 직접 접근하여 데이터를 가져올 필요가 없도록 하는 기술입니다.

GPU의 메모리 구조는 두 개의 계층으로 나뉩니다.

1) 글로벌 메모리(HBM)는 대용량(80GB)이지만 컴퓨팅 장치에서 멀리 떨어져 있어 접근 속도가 느린데, 마치 거대한 교외 창고와 같습니다.

2) 공유 메모리(SMEM)는 용량이 작지만(SM당 최대 228KB), 컴퓨팅 장치 가까이에 위치하여 워크스테이션 옆의 작은 캐비닛처럼 빠른 접근이 가능합니다.

모든 계산을 수행하려면 먼저 데이터를 교외 창고에서 작업대 위의 작은 캐비닛으로 옮긴 다음 계산이 완료되면 다시 원래 위치로 옮겨야 합니다. 데이터를 옮기는 과정 자체는 유용한 계산 결과를 도출하지 못하지만, 모든 데이터를 옮기지 않으면 계산을 수행할 수 없습니다.

TMA는 보다 정밀한 작업 분담을 가능하게 하는 전용 전송 모듈입니다. 텐서의 형태를 이해하며, 무엇보다 비동기적으로 실행될 수 있다는 점이 특징입니다.

TMA는 또 다른 비장의 무기를 가지고 있습니다. 바로 멀티캐스트입니다.

H100은 스레드 블록 클러스터(여러 개의 SM이 클러스터를 형성)를 도입했습니다. TMA는 요청을 시작한 SM의 공유 메모리로 데이터를 이동할 뿐만 아니라, 클러스터 내의 여러 SM에 동일한 데이터를 동시에 복사할 수도 있습니다.

요약하자면,

GPU의 핵심적인 모순은 연산 속도는 빠르지만 부품 이동 속도는 느리다는 점입니다. A100 시대에는 작업자들이 직접 부품을 옮겨야 했고, 작업을 재개하기 전에 모든 사람이 작업을 멈추고 부품을 함께 옮겨야 했습니다.

H100의 TMA는 마치 전담 배달원과 같습니다. 주소를 입력하고 붙여넣기만 하면 배달원이 알아서 처리해 주고, 다른 사람들은 각자의 업무에 집중할 수 있습니다. 게다가 이 배달원은 텐서의 형태를 이해하고 있어 데이터의 차원과 관계없이 좌표만 주어지면 스스로 찾아낼 수 있습니다.

DPX가 하나의 명령어로 두 가지 작업을 처리하여 "계산 속도를 향상"시킨다면, TMA는 데이터 전송이 더 이상 방해 요소가 되지 않도록 하여 데이터 전송과 계산이 서로 간섭 없이 병렬로 실행될 수 있도록 합니다. H100이 진정한 컴퓨팅 성능을 발휘하는 것은 바로 이 두 기술의 협력 덕분입니다.

그래픽 카드 제조사에서 AI 인프라의 절대적인 지배자로

2023년, 엔비디아는 완전한 변혁을 겪었습니다. 그래픽 카드 공급업체에서 전 세계 인공지능 인프라의 절대 강자로 발돋움했으며, 시가총액은 처음으로 1조 달러를 돌파했습니다.

이 회사의 실적 보고서는 3분기 연속으로 월가 예상치를 크게 상회했습니다. 데이터 센터 매출이 게임 매출을 제치고 회사의 절대적인 핵심 사업으로 자리 잡았습니다.

마이크로소프트, 메타, 구글 같은 실리콘 밸리의 거대 기업부터 사우디아라비아, 아랍에미리트 같은 국가에 이르기까지 전 세계가 H100 칩을 필사적으로 비축하고 있습니다. TSMC의 CoWoS 패키징 용량이 제한적이기 때문에 H100 칩은 극도로 부족해졌고, 중고 시장에서는 칩 하나당 가격이 4만 달러를 넘어선 적도 있습니다.

GPT-4나 Llama 같은 거의 모든 주류 대규모 모델은 CUDA 아키텍처를 기반으로 개발되었습니다. AMD의 하드웨어 성능이 우수하더라도, 모든 기본 최적화 및 연산자 라이브러리가 NVIDIA에 있기 때문에 개발자들이 AMD로 마이그레이션하기는 어렵습니다.

동시에 엔비디아는 소프트웨어 라이선스를 통해 수익을 창출하기 시작했습니다. 하드웨어는 일회성 판매이지만, 소프트웨어 구독은 지속적인 현금 흐름을 가져다줍니다.

2023년 GTC에서 젠슨 황은 "아이폰에 AI가 탑재될 시대가 도래했다"라고 유명한 선언을 했습니다.

2024 블랙웰(B200) – 마이크로텐서 스케일링

NVIDIA는 지난 3월 GTC 컨퍼런스에서 NVLink-C2C를 통해 두 개의 칩을 하나로 통합한 블랙웰(B200/GB200)을 공개했습니다. 이를 통해 트랜지스터 수가 2080억 개로 크게 증가한 "듀얼 칩 통합" 구조를 구현했습니다.

소프트웨어 측면에서 B200은 여전히 통합된 하나의 시스템으로 남아 있습니다.

우리는 B200을 텐서 코어, CUDA, NVLink의 세 가지 측면에서 분석할 수 있습니다.

5세대 텐서 코어: FP4 지원

B200 텐서 코어의 핵심적인 혁신은 FP4 지원에 있습니다.

2017년 FP16을 지원하는 1세대 텐서 코어부터 2022년 FP8을 지원하는 H100, 그리고 현재 FP4를 지원하는 5세대 텐서 코어인 B200에 이르기까지, 연산 능력은 향상되는 반면 정확도는 오히려 감소해 왔습니다.

B200의 FP4는 단순한 정밀도 절단이 아니라 마이크로 텐서 스케일링을 도입한 것입니다.

요약하자면, 마이크로텐서 스케일링은 데이터를 버리지 않고 각 숫자를 더 작게 만드는 데이터 압축 및 양자화 기술입니다.

본질적으로 이는 동적 범위 관리 알고리즘과 하드웨어 수준의 확장성 간의 협업으로, 수십 개의 요소로 구성된 그룹이 독립적인 확장 계수를 가질 수 있도록 합니다.

하드웨어 수준에서 마이크로텐서 확장은 블랙웰의 2세대 트랜스포머 엔진과 5세대 텐서 코어의 물리적 회로가 함께 작동하는 것에 달려 있습니다.

2세대 트랜스포머 엔진은 하드웨어 스케줄링 허브 역할을 하며, 동적 범위 관리 알고리즘을 담당하여 다양한 네트워크 계층과 다양한 텐서의 수치 분포 범위를 실시간으로 추적하고 최적의 공통 확장 비율을 계산합니다.

5세대 텐서 코어는 물리적 수준에서 FP4에 대한 네이티브 하드웨어 지원을 추가하여 하드웨어 수준의 스케일링을 구현합니다. 이는 실행을 담당하는 하드웨어 수준의 스케일링입니다. 산술 논리 장치(ALU)는 FP4 데이터와 스케일링 계수를 입력받아 하드웨어 수준에서 직접 행렬 곱셈 연산을 수행할 수 있습니다.

FP4 데이터는 계산 중에 즉시 정렬되어 고정밀 동적 범위를 복원할 수 있으므로 주요 특징 손실 없이 계산 성능을 두 배로 높일 수 있습니다. 특히 초대형 모델에 맞게 설계되었습니다.

또한 하드웨어 압축 해제 엔진의 도입으로 PCIe 및 NVLink의 유효 대역폭 활용률이 간접적으로 향상되었습니다.

CUDA 13.0

핵심은 개발자들이 B200의 복잡한 "듀얼 코어 통합" 구조를 원활하게 제어할 수 있도록 하는 방법입니다.

B200은 물리적으로 두 개의 칩으로 구성되어 있지만, CUDA는 NV-HBI(고대역폭 인터페이스)를 통해 개발자가 192GB의 비디오 메모리를 갖춘 통합된 개체를 볼 수 있도록 해주므로 수동으로 칩 간 데이터를 동기화할 필요가 없습니다.

NVLink 5.0 및 NVL72

5세대 NVLink 프로토콜은 단일 GPU의 양방향 대역폭을 1.8TB/s까지 향상시켜 H100의 두 배에 달합니다. 두 칩 간의 대역폭은 훨씬 더 높아서 10TB/s에 이르므로 소프트웨어 계층에서는 두 칩이 별개라는 것을 전혀 인식할 수 없습니다.

이를 바탕으로 NVIDIA는 36개의 Grace CPU와 72개의 Blackwell GPU를 통합하여 총 1.4 EB/s의 대역폭을 갖춘 대규모 리소스 풀을 구성하는 GB200 NVL72 랙도 출시했습니다.

GB200 NVL72는 팬으로는 더 이상 효과적이지 않아 액체 냉각 방식을 채택해야 했습니다. 랙 후면에는 광섬유 대신 5000개의 구리선이 사용되어 전력 소비를 크게 줄이는 동시에 광전 변환으로 인한 나노초 수준의 지연 시간을 제거했습니다.

그때부터 엔비디아는 "서버 랙"을 가장 작은 판매 단위로 사용하기 시작했습니다.

SHARP는 버전 4로 진화하여 네트워크 컴퓨팅 성능이 다시 두 배로 향상되었습니다.

NIM(NVIDIA 추론 마이크로서비스): 소프트웨어 폐쇄 루프

과거에는 대규모 오픈 소스 모델을 회사 자체 서버에 배포하는 것이 매우 힘들고 번거로운 수작업이었습니다.

엔지니어는 기본 환경을 구성하고, CUDA를 설치하고, PyTorch를 컴파일하고, 가속 스크립트를 직접 작성하고, 마지막으로 인터페이스를 직접 캡슐화해야 합니다. 이 전체 과정은 종종 몇 주가 걸립니다.

NIM은 사전 최적화된 모델이 포함된 사전 설치된 소프트웨어 컨테이너입니다. 기업은 NVIDIA 카드만 구매하면 단 한 번의 클릭으로 NIM을 실행할 수 있으므로, 각 구성 요소를 개별적으로 미세 조정하는 데 드는 고비용의 알고리즘 팀이 필요하지 않습니다.

기업은 자체 인트라넷 내에 NIM을 배포할 수 있습니다. AWS와 같은 클라우드 서비스에서 NIM을 활용하면 기업은 최신 모델을 사용하는 동시에 독점 데이터 및 애플리케이션에 대한 완벽한 보안 제어를 유지할 수 있습니다. 즉, 데이터가 제3자 모델 제공업체에 유출되는 일은 절대 없습니다.

2024년 6월, 엔비디아의 시가총액은 잠시 마이크로소프트와 애플을 제치고 세계에서 가장 가치 있는 기업이 되었습니다.

하지만 같은 해에 시장은 양극화되기 시작했습니다. 한편으로 엔비디아의 재무 보고서는 여전히 경이로울 정도로 높은 수익률을 기록했습니다.

반면 실리콘 밸리는 인공지능 투자 수익률에 대해 우려하기 시작했습니다. 마이크로소프트와 구글은 GPU에 수천억 달러를 투자했지만, 부가 가치 서비스 수익이 투자 비용을 충당하지 못하면서 엔비디아의 주가는 8월과 9월에 큰 폭으로 변동했습니다. 그럼에도 불구하고 엔비디아의 수익은 여전히 수백 퍼센트의 성장률을 유지하고 있습니다.

2025년에는 엔비디아의 시가총액이 5조 달러를 넘어 세계에서 가장 가치 있는 기업으로 확고히 자리매김할 것입니다.

딥시크 R1이 최고급 칩 의존도를 줄였다는 주장으로 인해 연초에 주가가 하루 만에 크게 하락하는 단기적인 영향을 받았지만, 이후 시장은 AI 학습에 필요한 고성능 컴퓨팅 파워에 대한 수요는 변하지 않았다는 점을 인식했고, 엔비디아의 주가는 더욱 탄력을 보였다.

엔비디아의 2025 회계연도 매출은 1,305억 달러에 달해 전년 대비 114% 증가했으며, 데이터센터 사업이 전체 매출의 약 80%를 차지했습니다. 엔비디아의 실적 발표는 미국 증시의 주요 지표로서 전통적인 경제 지표를 대체하고 있습니다.

엔비디아는 마이크로소프트와 오픈AI가 공동으로 진행한 5천억 달러 규모의 스타게이트 슈퍼컴퓨팅 프로젝트에도 참여했습니다.

2025년에 엔비디아는 실제로 몇 가지 중요한 전략적 변화를 겪을 것입니다.

1) 사업적 차원: 주권 국가에 칩을 수출하여 주권 국가의 인공지능 구축을 지원하는 것;

2) 기술적 접근 방식: 생성형 AI에서 에이전트형 AI 스웜으로의 전환;

3) 최첨단 응용 분야: 로봇 공학 및 디지털 트윈에 대한 이해 심화.

2025년 엔비디아는 큰 주목을 받지는 못했지만 매우 중요한 두 가지 주요 프로젝트인 GR00T와 코스모스를 발표했습니다.

GR00T는 휴머노이드 로봇을 위한 최초의 오픈 소스 범용 기본 모델이며, 코스모스는 구글, 디즈니와 같은 회사들과 협력하는 물리 시뮬레이션 플랫폼입니다.

이 두 가지를 결합하면 로봇을 디지털 트윈 환경에서 훈련시킬 수 있으며, 컴퓨터 가상 환경에서 중력, 마찰, 유체 역학은 물론 재료의 탄성, 빛과 그림자까지 시뮬레이션할 수 있습니다.

GPU의 강력한 컴퓨팅 성능을 활용하여 가상 세계는 기하급수적인 속도로 작동할 수 있습니다. 현실에서 하루가 걸리는 시간 동안 가상 세계에서는 수십 년 또는 수백 년에 해당하는 물리적 시뮬레이션 프로세스가 완료될 수 있습니다. 로봇의 AI 두뇌는 극히 짧은 실제 시간 내에 수십억 번의 낙하와 상승을 경험합니다.

이는 "인간 세계의 하루가 디지털 세계의 10년과 같다"는 말과 같습니다.

휴머노이드 로봇 프로토타입 Isaac GR00T N1의 양산은 NVIDIA가 글로벌 로봇 산업의 "두뇌 공급업체" 시장에 공식적으로 진출했음을 의미합니다.

젯슨 토르(Jetson Thor)는 로봇을 위해 특별히 설계된 차량용 컴퓨팅 플랫폼입니다. 이미 대량 생산에 들어갔으며, 모든 움직이는 "지능형 에이전트"의 두뇌 역할을 하는 것을 목표로 합니다.

연말에 엔비디아는 차세대 루빈 아키텍처를 공식 발표했습니다.

2026 Rubin (R100) – 에이전트 기반 AI 군집을 이용한 초거대 규모 추론

올해 초, NVIDIA는 CPU, GPU, NVSwitch, NIC, DPU, SuperNIC 등 6개의 핵심 칩을 재설계한 Rubin R100을 출시했습니다. NVIDIA는 이러한 개념을 익스트림 코디자인(Extreme Co-design)이라고 부릅니다.

12-Hi 스택을 탑재한 4세대 고대역폭 메모리 HBM4

여기에는 메모리 벽, 스태킹, HBM이라는 세 가지 개념이 포함됩니다. 이 세 용어는 "문제 식별 - 해결책 제시 - 문제 해결"이라는 완전한 과정을 구성합니다. 메모리 벽은 문제이고, 스태킹은 해결책이며, HBM은 그 해결책입니다.

메모리 월이란 무엇인가요?

요약하자면, RAM/비디오 메모리의 데이터 전송 속도가 GPU/CPU의 연산 속도를 따라가지 못한다는 것입니다.

예를 들어, GPU는 초당 100만 번의 곱셈을 수행할 수 있지만, 메모리는 초당 10만 개의 숫자만 전송할 수 있으므로 GPU는 나머지 90%의 시간 동안 유휴 상태로 남게 됩니다.

ChatGPT와 같은 모델은 수천억 개의 매개변수를 가지고 있으며, 질문에 답변할 때마다 이 수천억 개의 숫자를 메모리에서 불러와 계산해야 합니다. 이로 인해 메모리 병목 현상이 발생하여 아무리 강력한 GPU라도 무용지물이 됩니다.

스태킹: 물리적 수준에서 메모리 장벽을 허물다

메모리 병목 현상을 해결하는 가장 간단하고 직접적인 방법은 메모리와 GPU를 최대한 가깝게 배치하고 여러 개의 메모리 모듈을 사용하는 것입니다.

하지만 마더보드에서 GPU 주변의 공간은 제한적입니다. 그래서 엔지니어들은 TSV(Through Silicon Vias) 기술을 사용하여 메모리 칩에 수만 개의 미세한 구멍을 뚫고 구리선을 채운 다음, 4층, 8층, 12층, 그리고 미래의 16층 메모리 칩까지 햄버거를 쌓듯이 수직으로 쌓아 올렸습니다. 이것이 바로 스태킹(stacking)입니다.

HBM(고대역폭 메모리): 스택 속의 고속도로

HBM은 적층 기술을 사용하여 구축된 고속 데이터 전송망으로, 주로 TSV(Through Silicon Via)와 실리콘 인터포저(외부 수평 연결 문제 해결용)에 의존합니다.

HBM4(High Bandwidth Memory 4)는 현재 세계에서 가장 앞선 4세대 고대역폭 메모리 기술입니다. 12-Hi 스태킹은 첨단 패키징 기술을 사용하여 메모리 칩 12층을 수직으로 쌓아 하나의 칩을 만드는 것을 의미하며, 마치 고층 빌딩을 짓는 것과 같습니다.

각 Rubin 칩에는 288GB의 HBM4 메모리가 기본적으로 통합되어 최대 22TB/s의 대역폭을 구현합니다. 10조 개의 파라미터를 가진 초대형 모델을 처리할 때, Rubin은 GPU 개수를 늘리지 않고도 학습 효율을 3.5배 향상시키고 추론 비용을 10배 절감할 수 있습니다.

Vera CPU - FP8을 기본적으로 지원합니다

먼저 CPU와 GPU의 기본적인 차이점을 살펴보겠습니다.

CPU는 연산 장치(ALU)보다는 복잡한 제어 장치와 캐시에 많은 트랜지스터를 할당합니다.

이 설계는 복잡한 논리를 가진 운영 체제에는 매우 효과적이지만, 인공지능의 "엄격한" 대규모 수학 연산에 직면했을 때는 복잡한 제어 장치가 에너지 효율이 극히 낮아 순전히 낭비일 뿐입니다.

GPU는 SIMD(단일 명령어 다중 데이터) 또는 더욱 발전된 SIMT(단일 명령어 다중 스레드) 아키텍처를 사용합니다. 단일 제어 장치가 다수의 연산 장치를 제어합니다.

체조와 마찬가지로 강사(CU)가 "손을 들어라"라고 외치면 수천 명의 학생(ALU)이 동시에 동작을 수행하여 "명령"에 사용되는 트랜지스터 영역을 크게 절약하고 모든 것을 "작업 수행"을 위한 컴퓨팅 성능으로 전환합니다.

이것이 바로 GPU가 AI 작업에서 CPU보다 훨씬 에너지 효율이 높은 근본적인 이유입니다.

하지만 GPU는 운영체제를 실행할 수 없고, 하드디스크 파일을 직접 읽을 수 없으며, 외부 네트워크 요청을 처리할 수도 없습니다. GPU는 CPU에 의해 사용되어 작업을 분배하고 데이터를 준비하는 역할을 합니다.

Vera CPU는 Windows 데이터를 처리하는 범용 프로세서가 아니라 NVIDIA가 Agentic AI를 위해 맞춤 제작한 데이터 관리자로서, 매우 낮은 지연 시간과 매우 높은 대역폭으로 인접한 Rubin GPU에 안정적으로 데이터를 공급합니다.

본질적으로 이는 GPU 컴퓨팅 처리량을 극대화하도록 설계된 특수 프로세서입니다. 기존의 범용 컴퓨팅에서 중복되는 기능을 제거하고, 극도로 높은 메모리 대역폭, 매우 낮은 단일 스레드 전력 소비, 그리고 저정밀도 데이터 지원을 통해 단일 AI 컴퓨팅 시나리오에서 절대적인 데이터 스케줄링 효율성을 달성합니다.

2022년 이전에는 엔비디아가 GPU만 제조했습니다. 모든 AI 서버는 인텔 또는 AMD x86 CPU를 마더보드 코어로 사용하고 엔비디아 GPU를 USB 드라이브처럼 연결했습니다. 이로 인해 앞서 언급한 PCIe 병목 현상이 발생했습니다.

호퍼(H100) 시대가 도래하면서 NVIDIA는 자체 ARM 아키텍처 기반의 Grace CPU를 개발하고, 자사 CPU와 H100 GPU를 최초로 하나의 슈퍼 마더보드에 통합한 GH200(Grace Hopper Superchip)을 출시했습니다.

Vera를 통해 CPU와 GPU 간의 데이터 장벽이 완전히 사라졌습니다.

이전에도 GPU는 FP8과 같은 매우 낮은 정밀도를 사용하여 계산을 수행했지만, CPU는 전통적으로 고정밀 FP32/FP16 데이터 처리에만 능했습니다. 이 둘 간의 데이터 전송에는 빈번한 형식 변환이 필요하여 상당한 대역폭과 시간이 낭비되었습니다.

Vera는 하드웨어 수준에서 FP8을 기본적으로 지원하는 업계 최초의 CPU입니다. 데이터가 Rubin GPU로 전달되기 전에 CPU 수준에서 직접 FP8 전처리 및 정렬을 수행할 수 있으므로 데이터 형식 변환으로 인한 지연 시간 오버헤드를 완전히 제거합니다.

NVLink 6 및 실리콘 포토닉스(CPO)

물리적 차원에서 엔비디아는 여러 엔지니어링 및 재료 과학의 한계를 뛰어넘었습니다. 다음으로 살펴볼 구리선에서 실리콘 포토닉 CPO에 이르는 설계는 이러한 한계를 보여주는 축소판입니다.

실리콘 포토닉스와 CPO 기술은 엄청난 제조 비용과 심각한 유지보수 문제를 감수하는 대신 물리적 한계를 뛰어넘는 초저전력 소비와 막대한 대역폭을 제공합니다. 반면 구리선은 저렴한 비용과 매우 높은 물리적 신뢰성으로 단일 랙 내에서 최후의 수단으로 자리매김하고 있습니다.

하지만 R100은 이미 구리선의 한계에 도달했습니다.

이전 세대의 블랙웰 아키텍처 랙에서는 72개의 컴퓨팅 칩을 구리 케이블로 연결하기 위해 랙의 백플레인에 5,000개 이상의 매우 무겁고 두꺼운 구리 케이블이 빼곡하게 들어찼습니다. 2026년에 출시될 NVLink 6는 단일 카드 상호 연결 대역폭을 3.6TB/s로 두 배로 늘릴 것입니다.

순수 구리 케이블만 계속 사용할 경우, 랙 내부의 구리 케이블 수는 만 개를 넘어설 것입니다. 물리적으로 수용할 수 없을 뿐만 아니라, 지나치게 빽빽한 케이블 때문에 랙 전체의 냉각 공기 흐름이 완전히 차단될 것입니다.

더욱 심각한 문제는 구리선의 저항으로 인해 초고주파 신호 전송 시 심각한 신호 감쇠가 발생한다는 점입니다. 전기 신호를 강제로 전송하기 위해 시스템은 막대한 전력을 소모해야 합니다. 단일 랙의 전력 소모량이 이미 극도로 높았던 루빈 시대에, 신호 감쇠로 인한 이러한 불필요한 에너지 소모는 도저히 용납할 수 없는 것이었습니다.

따라서 엔비디아가 구리선에서 실리콘 포토닉스 CPO로 전환한 것은 선제적인 선택이라기보다는 불가피한 절충안에 가깝다.

NIM 2.0 및 추론 저장소

R100의 핵심 키워드는 "에이전트 AI"입니다. 이전 섹션에서는 에이전트 AI에 대한 하드웨어 수준의 지원을 소개했으며, NIM은 하드웨어와 소프트웨어 간의 협업을 의미합니다.

NIM 2.0은 다중 에이전트 협업 컴퓨팅을 위해 특별히 설계된 표준화된 소프트웨어 컨테이너 및 스케줄링 버스로, 다양한 AI 모델 간의 초고속 데이터 상호 작용 및 컴퓨팅 성능 할당을 가능하게 합니다.

소프트웨어 수준에서는 다양한 AI 모델이 캡슐화되어 매우 낮은 지연 시간으로 서로를 호출할 수 있으며, 복잡한 작업은 자동으로 분해되어 분산됩니다.

추론 스토리지는 대규모 모델과 초장시간 컨텍스트(KV 캐시)를 위해 특별히 설계된 물리적 다단계 메모리 아키텍처로, 단일 그래픽 카드의 메모리 용량이라는 물리적 한계를 완전히 뛰어넘습니다.

모델 추론 중 컨텍스트 데이터는 더 이상 메인 메모리와 빈번하게 오가지 않고, 네트워크 교환 중에 동적으로 캐시됩니다.

하드웨어와 소프트웨어의 결합은 수백만 단어가 포함된 복잡한 작업을 처리할 때 에이전트형 AI가 겪는 지연 및 메모리 오버플로 병목 현상을 해결합니다.

기존의 추론 서비스 프레임워크는 주로 단일 모델에 대한 순차적 최적화(예: 단일 LLM이 지속적으로 텍스트를 생성하는 경우)에 초점을 맞춥니다. 그러나 에이전트 기반 AI 워크플로에서는 여러 모델이 높은 빈도로 동시에 협업해야 하는 경우가 많습니다. NIM 2.0은 이러한 목적에 맞게 특별히 재구성된 소프트웨어 인프라입니다.

또한, 미래 방향을 제시하는 GR00T와 Cosmos는 2.0 버전으로 진화했습니다. NVIDIA는 BMW, Tesla와 같은 기업들과 긴밀한 파트너십을 구축했으며, 2026년까지 수십만 대의 GR00T 2.0 기반 협동 로봇이 NVIDIA Isaac 플랫폼을 통해 클라우드에서 작동할 수 있게 될 것입니다.

이 시점에서 엔비디아의 개발 궤적은 완전히 윤곽이 드러났습니다.

추신

엔비디아에 대한 조사를 하면서 두 가지 측면에 깊은 인상을 받았습니다.

1) 황런순의 판단

2012년 ImageNet 대회에서 알렉스 크리제프스키는 일반적인 NVIDIA GTX 580 게이밍 그래픽 카드 두 장을 사용하여 이미지 인식 오류율을 26%에서 15.3%로 줄여 2위와의 격차를 무려 10.8%나 벌리며 전 세계를 놀라게 했습니다.

2013년, 젠슨 황은 자신의 연구 분야를 CPU로 완전히 전환했습니다.

주목할 점은 이것이 구글이 트랜스포머 아키텍처를 소개하고 현대 LLM 대규모 모델의 토대를 마련한 논문 "관심만 있으면 된다(Attention is All You Need)"를 발표한 지 4년 후라는 것입니다. 당시 반도체 업계의 경쟁은 여전히 범용 CPU 분야에 집중되어 있었습니다.

그 후 황런쉰은 중요한 고비마다 거의 모든 면에서 올바른 선택을 했다.

2006년 당시에는 아무도 CUDA가 무엇에 쓰이는지 몰랐지만, 그는 매년 5억 달러를 쏟아부어 CUDA에 계속 투자했다.

2017년, 과학 컴퓨팅 커뮤니티가 여전히 FP64의 절대 정밀도를 추구하고 있을 때, 그는 당시 소수의 사람들만이 사용하던 행렬 연산 전용 회로를 위해 가장 비싼 칩의 넓은 영역을 할당하는 과감한 결정을 내렸습니다.

2018년 모바일 인터넷 붐이 최고조에 달했을 때, 그는 과감하게 휴대폰 칩 사업을 접고 모든 자원을 데이터 센터에 투자했다.

2022년, 그는 당시에는 잘 알려지지 않았던 OpenAI 사무실에 직접 DGX-1 첫 번째 제품을 전달했습니다.

당시에는 모든 결정이 거의 미친 짓처럼 보였다.

이러한 판단은 예언적인 예측에서 비롯된 것이 아니라, 기술의 근본적인 논리에 대한 심오한 이해에서 나온 것입니다. 젠슨 황은 일관되게 한 가지 질문을 던져왔습니다. "컴퓨팅의 미래는 무엇인가?" 그의 대답은 변함없이 일관적입니다. 병렬 컴퓨팅이 결국 직렬 컴퓨팅을 대체할 것이며, 특정 분야에 특화된 효율성이 궁극적으로 범용 성능을 능가할 것이라는 것입니다.

이러한 신념은 CUDA부터 Tensor Core, NVLink부터 Rubin에 이르기까지 NVIDIA의 전체 개발 경로를 이끌어 왔습니다.

2) 엔비디아의 엔지니어링 역량

엔비디아의 칩은 끊임없이 물리학의 한계를 뛰어넘어 왔으며, 이 과정에서 이루어진 혁신, 절충, 그리고 선택은 통신, 재료, 광학뿐만 아니라 양자 물리학의 경계까지 아우릅니다.

하이브리드 방식의 정밀도는 속도를 희생하는 대신 정확도를 높이는 절충안입니다.

구조적 희소성은 가지치기 기능을 희생하는 절충안입니다.

구리선에서 실리콘 포토닉스로의 전환은 제조 난이도를 희생하는 대신 전송 한계를 감수하는 일종의 절충안을 나타냅니다.

각 세대의 아키텍처 발전은 단순히 숫자를 늘리는 것에 그치는 것이 아니라, 정확성과 효율성, 일반성과 특수성, 비용과 성능 사이에서 최적의 해법을 끊임없이 모색하는 과정에 있습니다.

이 모든 것의 이면에는 매우 규모가 크고 깊이 관여하는 엔지니어링 팀이 있습니다.

cuDNN의 컨볼루션 알고리즘은 10년 이상에 걸쳐 수작업으로 어셈블리 레벨 최적화를 거쳤으며, TensorRT의 연산자 융합은 각 커널의 스케줄링 전략까지 정밀하게 설계되었습니다. 또한 TMA의 비동기 전송 메커니즘은 연산과 데이터 전송 간의 진정한 병렬 처리를 가능하게 합니다. 이러한 눈에 보이지 않는 근본적인 발전은 CUDA 생태계의 강력한 방어벽을 구축하는 가장 중요한 기반입니다.

더욱 놀라운 점은 엔비디아가 하드웨어와 소프트웨어 사이에 매우 견고한 연결 고리를 구축했다는 것입니다.

CUDA부터 cuDNN, TensorRT부터 NIM, 칩부터 랙, 나아가 전체 데이터센터에 이르기까지 각 계층은 긴밀하게 통합되어 있습니다. 경쟁사가 한 계층에서 따라잡더라도 전체 스택에서 동시에 따라잡기는 매우 어렵습니다.

이 회사는 단순히 칩만 만드는 회사가 아니라, 트랜지스터부터 소프트웨어 컨테이너, 단일 카드부터 멀티 카드 클러스터, 알고리즘부터 물리 법칙에 이르기까지 모든 것의 한계를 뛰어넘는 시스템 수준의 회사입니다.

엔비디아의 성장 과정을 되돌아보면 가장 인상적인 것은 단순한 진실입니다. 진정한 경쟁 우위는 단 하나의 기술이 아니라, 오랜 시간에 걸쳐 수많은 올바른 결정들이 누적되어 만들어낸 결과라는 것입니다.

CUDA는 딥러닝의 폭발적인 성장을 목격하는 데 10년이 걸렸습니다. Tensor Core는 Transformer가 시장을 장악하는 데 5년이 걸렸습니다. NVLink는 지점 간 연결에서 완전히 상호 연결된 네트워크로 진화하는 데 세대가 걸렸습니다. 각 기술은 처음 등장했을 때는 시대를 앞서가는 것처럼 보였고, 심지어 불필요해 보이기까지 했습니다. 하지만 역사의 흐름이 본격적으로 도래했을 때, 그 기술들은 이미 그 자리에 있었습니다.

이것이 아마도 황인쉰이 자주 하는 말에 대한 가장 적절한 설명일 것이다.

"우리 회사는 항상 파산 직전의 위태로운 상황에 놓여 있습니다."

바로 이러한 위기감이 엔비디아가 남들이 "너무 이르다"고 생각할 때마다 10년 앞서 기반을 다지도록 만든 원동력이었습니다. 그리고 진정한 기회가 왔을 때, 모두가 엔비디아만이 그 길을 걷고 있다는 사실을 깨달았습니다.

마지막으로, 몇 마디 생각해 보시죠.

엔비디아 외에도, 연구 과정에서 저에게 경외감과 흥분을 불러일으킨 것은 인류가 보여준 지혜였습니다.

B200 칩 하나에는 2080억 개의 트랜지스터가 집적되어 있습니다. 이를 이해하기 쉽게 설명하자면, 맨눈으로 볼 수 있는 은하수의 별의 수는 약 6000억 개입니다. 손톱만 한 크기의 칩에 이와 비슷한 수의 트랜지스터가 들어 있는 것입니다.

이 2080억 개의 트랜지스터는 하나하나 납땜된 것이 아니라, 포토리소그래피 방식으로 제작되었습니다. 파장이 13.5나노미터에 불과한 극자외선이 매우 정밀한 포토마스크를 통과하여 실리콘 웨이퍼에 회로 패턴을 투영하고, 이를 층층이 "인쇄"하는 방식입니다. 각 층의 정렬 정밀도는 나노미터 이하 수준으로, 마치 지구에서 달 표면의 동전에 레이저를 쏘는 것과 같습니다.

트랜지스터의 게이트 길이가 3나노미터 또는 그 이하로 줄어들면 전자의 움직임은 더 이상 고전 물리학을 엄격하게 따르지 않게 됩니다. 양자 터널링 효과가 나타나기 시작하면서 전자는 마치 유령처럼 절연체여야 할 얇은 벽을 통과할 수 있게 됩니다. 다시 말해, 칩 공학은 양자 역학의 불확정성 원리의 한계에 도달한 것입니다.

이것이 바로 B200이 "듀얼 코어 통합" 접합 방식을 채택해야 하는 근본적인 이유입니다. 단일 실리콘 웨이퍼는 이미 현재의 포토리소그래피 기술과 물리 법칙의 한계에 도달했으며, 이를 계속 확대하면 수율이 급격히 떨어질 뿐입니다.

그래서 엔지니어들은 접근 방식을 바꿨습니다. 하나의 부품으로는 불가능했기 때문에 두 개의 부품을 완벽하게 결합한 다음, 10TB/s의 대역폭을 가진 NVLink-C2C를 사용하여 두 부품을 하나로 연결했습니다. 이로써 소프트웨어 계층은 연결 부위를 전혀 인식하지 못하게 되었습니다.

양자 물리학부터 재료 과학, 광학 공학부터 패키징 기술에 이르기까지, 칩의 탄생에는 인류가 보유한 거의 모든 최첨단 분야의 지혜가 집약되어 있습니다.

슈테판 츠바이크의 책 《인류의 별들》이 생각납니다. 우리는 모래로 생각하는 기계를 만들었고, 이 기계를 이용해 우주를 탐험하고, 물리학을 시뮬레이션하고, 심지어 의식 자체를 이해하려고까지 합니다.

어쩌면 이 이야기는 그 어떤 회사의 성장 이야기보다도 더 기록할 가치가 있을지도 모릅니다.