AMD는 엔비디아의 DGX Spark를 직접 겨냥한 소형 AI 데스크톱 PC를 출시했습니다.

2026년 6월, AMD는 샌프란시스코에서 열린 AI DevDay에서 새로운 기기의 출시 계획을 확정 발표했습니다. 이 기기는 애플 맥 미니와 비슷한 크기이며, 128GB의 통합 메모리를 탑재하고, 공식적으로 로컬 AI 개발 플랫폼으로 소개되었습니다. 불과 몇 달 전, NVIDIA의 DGX Spark도 개발자들의 데스크톱에 등장했는데, 이 역시 손바닥 크기의 금속 케이스에 128GB의 통합 메모리를 탑재하고 2천억 개의 매개변수를 가진 대규모 모델을 로컬에서 실행할 수 있다고 주장했습니다.

AMD 라이젠 AI 헤일로 개발자 플랫폼은 라이젠 AI 맥스+ 395 프로세서를 탑재하고 있습니다.

Tom's Hardware의 HP Z2 Mini G1a 리뷰에서는 AMD 제품의 예상 가격대를 2,949달러에서 3,999달러로 제시했습니다. 엔비디아 웹사이트에 따르면 DGX Spark는 3,999달러부터 시작하며, 일부 OEM 버전은 2026년 2월에 4,679달러까지 오를 예정이라고 합니다. AMD가 가격 경쟁력에서 우위를 점하고 있는 것처럼 보이지만, 이는 표면적인 것일 뿐입니다.

동일한 128GB 용량이지만, 두 가지 다른 경로로 전송됩니다.

AMD의 라이젠 AI 헤일로의 핵심은 16개의 젠 5 코어와 40개의 RDNA 3.5 아키텍처 GPU 컴퓨팅 유닛, 그리고 50 TOPS의 XDNA 2 NPU를 탑재한 라이젠 AI 맥스+ 395 프로세서입니다. 엔비디아의 공식 하드웨어 문서에서는 DGX Spark를 다르게 설명합니다. GB10 그레이스 블랙웰 슈퍼칩으로, 20코어 ARM CPU와 블랙웰 아키텍처 GPU가 결합된 제품이며, NPU는 없지만 ConnectX-7 200Gbps 네트워크 카드가 포함되어 있습니다. AMD 제품은 2.5GbE 이더넷과 Wi-Fi 7을 제공하는 반면, 엔비디아 제품은 10GbE와 Wi-Fi 7, 그리고 고가의 고속 네트워크 카드를 제공합니다.

메모리 사양은 겉보기에는 비슷합니다. 둘 다 128GB LPDDR5x를 사용합니다. AMD 제품 페이지에는 메모리 대역폭이 256GB/s로 표시되어 있고, NVIDIA의 공식 수치는 273GB/s입니다. 차이는 7% 미만으로, 대부분의 추론 작업에서는 거의 체감할 수 없습니다.

운영 체제 선택은 두 회사 간의 더욱 근본적인 차이를 드러냅니다. AMD Ryzen AI Halo는 Windows 11 Pro가 사전 설치되어 있으며, Ubuntu 24.04를 선택적으로 설치할 수 있습니다. 부팅 시에는 Thunderbolt 포트와 일반적인 주변 장치를 완벽하게 지원하는 표준 PC 데스크톱 환경으로 작동합니다. 반면 DGX Spark는 Ubuntu의 맞춤형 버전인 DGX OS를 실행하며, 부팅 후 가장 먼저 CUDA 환경과 NVIDIA 컨테이너 툴체인을 구성해야 합니다.

The Register는 2025년 12월에 상세한 현장 테스트 비교를 진행했습니다. 그 결과, 단일 배치 대규모 언어 모델 추론 시 두 시스템의 토큰 생성 속도는 매우 유사했습니다. 그러나 프롬프트 처리 단계에서는 DGX Spark가 2~3배 더 빨랐습니다. 이러한 차이는 Blackwell 아키텍처의 저정밀도 연산 지원과 NVIDIA의 오랜 추론 파이프라인 코드 경로 최적화 기술 덕분입니다. ServeTheHome의 리뷰는 또 다른 측면을 지적했습니다. DGX Spark의 ConnectX-7 네트워크 카드는 900달러가 넘는 가격에 판매되며, 여러 대의 머신으로 구성된 클러스터 환경에서의 잠재적 가치는 단일 머신 추론 환경을 훨씬 뛰어넘는다는 것입니다.

Tom's Hardware와 같은 매체의 테스트에 따르면, Ryzen AI Halo는 높이 85mm, 너비 168mm, 깊이 200mm이며 무게는 2.3kg으로, 일반적인 미니 워크스테이션과 크기가 비슷합니다. NVIDIA의 공식 문서에 따르면 DGX Spark는 가로세로 150mm, 두께 50.5mm, 무게 1.2kg입니다. 하나는 하드 드라이브 케이스를 쌓아 놓은 것처럼 보이고, 다른 하나는 라우터처럼 보입니다.

ROCm의 진행률 표시줄은 더 이상 "충분히 좋은" 수준에 그치지 않습니다.

AMD의 공식 발표에 따르면 ROCm 7.2는 2026년 1월에 출시될 예정이며, 후속 버전인 7.2.4는 특히 AI 추론 워크로드의 안정성과 성능을 최적화할 예정입니다. 포로닉스는 출시 당일에 자세한 내용을 보도했습니다.

리눅스 개발자에게 ROCm 설치 과정은 2년 전보다 훨씬 간편해졌습니다. 2026년 3월, 기술 블로거 쿠날 강글라니는 상세한 ROCm 사용자 가이드에서 시스템 구성부터 RX 7900 XTX에서 PyTorch 모델을 실행하는 데까지 전체 과정을 단 30분 만에 완료했다고 밝혔습니다. "2024년에는 같은 작업을 하려면 반나절이 걸렸을 것입니다." 그의 블로그에 따르면 ROCm은 현재 PyTorch, TensorFlow, JAX, DGL 등 4대 주요 딥러닝 프레임워크를 지원하며, vLLM, Ollama, llama.cpp와 같은 추론 엔진 모두 ROCm 백엔드를 사용할 수 있습니다.

하지만 이러한 발전에도 불구하고 CUDA의 성장세는 멈추지 않을 것입니다. NVIDIA의 소프트웨어 스택은 17년 이상에 걸쳐 구축되어 왔으며, Stack Overflow에서 CUDA 관련 질문과 답변의 수는 ROCm보다 수십 배나 많습니다. FlashAttention이나 xFormers와 같은 최첨단 라이브러리의 새 버전은 일반적으로 CUDA 버전으로 먼저 출시되며, ROCm 포팅은 몇 주에서 몇 달이 걸립니다. PyTorch 표준 API의 범위를 넘어서는 맞춤형 CUDA 커널은 AMD 플랫폼에서 수동으로 수정해야 합니다. AMD의 공식 호환성 매트릭스에는 검증된 프레임워크와 GPU 조합이 나와 있지만, "검증됨"과 "문제가 발생했을 때 관련 정보를 찾을 수 있을 만큼 충분한 커뮤니티 토론 스레드가 있음"은 별개의 문제입니다.

레딧의 r/LocalLLaMA 서브레딧에서는 2025년 말부터 어떤 기기를 선택해야 할지에 대한 논의가 계속되고 있습니다. 가장 많이 인용되는 요약은 강글라니의 블로그 게시글 마지막 부분에 나옵니다. "첫날부터 모든 것이 완벽하게 작동해야 한다면 NVIDIA를 구입하세요. 800달러를 절약하기 위해 오후 시간을 투자해서 문제를 해결할 의향이 있다면 ROCm이 적합합니다."

AMD는 이 점을 매우 잘 이해하고 있는 것 같습니다. 지난 1년 동안 AMD는 엔비디아의 진입 장벽을 그대로 따라 하는 대신, 그 장벽 밖에서 완전히 새로운 전략을 구축해 왔습니다.

2024년 8월, AMD는 ZT Systems를 49억 달러에 인수한다고 발표했습니다. 월스트리트 저널은 2025년 3월에 거래가 완료되었다고 보도했습니다. ZT Systems는 마이크로소프트, 메타와 같이 매년 수만 개의 GPU를 구매하는 거대 데이터 센터 고객을 위해 랙 규모의 AI 서버 시스템을 설계 및 조립하는 회사입니다. AMD는 이번 인수를 통해 개별 GPU부터 전체 랙에 이르기까지 시스템 설계 역량을 확보하게 되었습니다.

하지만 AMD는 곧바로 다소 모순적으로 보이는 결정을 내렸습니다. 산미나의 공식 발표에 따르면, AMD는 2025년 5월 ZT 시스템즈의 데이터센터 제조 사업부를 산미나에 분사시키고 설계팀만 남겨두었습니다. 그 이유는 명확합니다. AMD는 OEM 고객들과 경쟁하고 싶지 않았던 것입니다. 만약 AMD가 자체적으로 AI 서버를 제조한다면, AMD 그래픽 카드를 판매하는 서버 제조업체들은 즉시 경계심을 갖게 될 것입니다. 설계 역량은 유지하고 제조는 아웃소싱함으로써, AMD는 역량 강화와 생태계 관계 유지 사이에서 균형을 맞춘 것입니다.

이후 6개월 동안 두 가지 중요한 사건이 더 발생했습니다.

2025년 10월, AMD는 OpenAI와 6GW 규모의 AMD Instinct GPU 공급을 위한 전략적 파트너십을 공식 발표했습니다. 첫 1GW는 2026년 하반기에 출하될 예정입니다. 이 계약에는 OpenAI가 AMD 주식의 최대 10%를 매입할 수 있는 조항이 포함되어 있습니다. 로이터와 CNBC는 당일 보도에서 이 내용을 중계했습니다. OpenAI에 공급될 GPU는 차세대 Instinct GPU이지만, AMD는 구체적인 모델은 공개하지 않았습니다.

2026년 2월, AMD는 Meta와의 협력 확대를 발표하는 공식 보도자료를 또 한 번 배포했는데, 이번에도 6GW 규모의 GPU를 공급할 예정이라고 밝혔습니다. 이번에 사용되는 칩은 Meta의 맞춤형 MI450 변형 모델로, 2026년 하반기부터 출하될 예정이었습니다. 같은 날 CNBC는 흥미로운 사실을 보도했는데, 이 협력 발표 며칠 전 Meta는 Nvidia와도 AI 칩 조달 계약을 확대했다고 발표한 바 있습니다.

메타가 두 회사로부터 동시에 장기 계약을 확보한 것은 어떤 기술적 비교보다도 더 중요한 의미를 지닙니다. 매년 수백억 달러를 AI 인프라에 투자하는 기업에게 모든 것을 한 곳에 의존하는 것은 용납할 수 없는 위험입니다. AMD는 모든 면에서 엔비디아를 능가할 필요는 없습니다. 엔비디아의 실행 가능한 대안을 제시하는 것만으로도 "이중 공급업체" 전략에 따라 수주를 확보할 수 있습니다. 두 건의 6GW 규모 계약은 적어도 오픈AI와 메타가 계약 조건에 AMD를 포함시켰음을 시사합니다.

엔비디아는 동시에 여러 가지 조치를 조합하여 대응했습니다.

동시에 NVIDIA는 기업 시장을 겨냥한 다각적인 공세를 펼쳤습니다. DGX Spark는 개발자 데스크톱 장치로 포지셔닝되었지만, ConnectX-7 네트워크 인터페이스 카드(NIC)를 탑재하여 독립적인 워크스테이션으로만 사용되는 것은 아닙니다. ServeTheHome의 리뷰는 프로토타이핑, 분산 교육 및 디버깅 환경에서 NIC의 가치를 자세히 분석하며, 데이터 센터급 NVLink보다는 속도가 훨씬 느리지만 소규모 클러스터 환경에는 충분하다고 결론지었습니다. 이러한 설계 덕분에 DGX Spark는 NVIDIA의 광범위한 기업용 제품 라인에 자리매김하게 되었습니다. 개발자는 Spark를 사용하여 프로토타이핑을 진행한 후, 코드를 DGX Station이나 클라우드 기반 DGX 인스턴스로 마이그레이션하고, 최종적으로 H200 또는 B200 프로세서가 탑재된 서버 클러스터에 배포합니다. 데스크톱에서 데이터 센터에 이르기까지 일관된 하드웨어 및 소프트웨어 툴체인이 CUDA와 완벽하게 통합됩니다.

NVIDIA는 이와 동시에 TensorRT, RAPIDS, Triton 추론 서버 등의 도구를 묶어 노드별로 요금을 부과하는 AI 엔터프라이즈 소프트웨어 구독 제품군도 출시했습니다. NVIDIA 공식 제품 페이지에서 AI 엔터프라이즈에 포함된 전체 도구 목록을 확인할 수 있습니다. 이는 하드웨어 판매에 초점을 맞춘 것이 아니라, 개발자들이 CUDA에 익숙해지면 기업 수준의 배포 및 유지 관리를 지속적인 유료 비즈니스로 전환하는 데 목적이 있습니다.

양측의 경로를 비교해 보면, 그 차이가 확연히 드러난다.

엔비디아는 칩부터 시스템, 소프트웨어, 클라우드 서비스에 이르기까지 완벽한 폐쇄형 시스템을 구축했습니다. 개발자는 이 폐쇄형 시스템 내에서 처음부터 최적화된 도구를 사용할 수 있지만, 단일 공급업체의 생태계에 종속된다는 단점이 있습니다. 반면 AMD는 개방형 접근 방식을 택했습니다. 업계 표준인 x86 아키텍처를 사용하고, Windows와 Linux 시스템을 모두 지원하며, ROCm을 주류 프레임워크와 호환되는 오픈 소스 스택으로 만들어 가격에 민감한 고객이나 이미 공급업체에 대한 위험을 분산시키려는 고객을 저렴한 가격으로 유치하고 있습니다.

라이젠 AI 헤일로 제품 자체는 이러한 접근 방식을 가장 단순하게 구현한 하드웨어 사례입니다. 맞춤형 네트워크 카드, 전용 운영 체제, 저정밀 학습 가속 장치가 없습니다. 200바이트 모델을 실행할 수 있는 통합 메모리와 상당히 괜찮은 GPU를 영리하게 통합한 범용 PC입니다. 대규모 모델 추론에 사용하거나 터미널을 닫고 포토샵을 열 수도 있습니다. Tom's Hardware의 보고서에 따르면 HP Z2 Mini G1a의 가격은 2,949달러로, DGX Spark의 시작 가격인 3,999달러보다 훨씬 저렴합니다. 다른 OEM 버전의 경우 가격 차이가 1,000달러를 넘을 수도 있습니다.

하지만 이러한 유연성에는 대가가 따릅니다. The Register의 실제 테스트 데이터에 따르면, 단일 배치 추론에서 대규모 병렬 컴퓨팅이 필요한 시나리오로 초점이 옮겨갈수록 Blackwell 아키텍처의 저정밀도 연산 능력과 수년간 최적화된 소프트웨어 스택의 이점이 빠르게 드러납니다. Stable Diffusion 그래픽을 실행할 수 있는 데스크톱 환경이 필요하다면 NVIDIA의 CUDA 에코시스템에서 바로 사용할 수 있는 완벽한 도구 세트를 제공합니다. AMD의 RDNA 3.5 아키텍처는 FP4 및 FP8 저정밀도 형식을 지원하지 않아 이미지 생성과 같은 작업 부하에서 성능 저하가 발생합니다. 이는 RDNA 아키텍처 설계의 고유한 특성으로 드라이버 업데이트로는 해결할 수 없습니다.

상자의 진정한 집은 상자 안에 있는 것이 아닙니다.

지난 한 해 동안 AMD의 행보를 되짚어보면 상당히 명확한 패턴을 찾아볼 수 있습니다.

하드웨어 측면에서는 Instinct MI300과 MI325X가 양산 중이며, MI350과 MI450은 로드맵에 따라 개발이 진행되고 있습니다. Ryzen AI Max+ 395는 노트북 칩에서 데스크톱 APU로 전환되어 개발 플랫폼에 통합되었습니다. 시스템 측면에서는 ZT Systems 인수를 통해 랙 마운트 설계 역량을 확보한 후, 연구 개발은 유지하면서 제조 부문을 분사했습니다. 고객 측면에서는 세계 최대 AI 컴퓨팅 파워 소비 기업 두 곳과 각각 6GW 규모의 장기 계약을 체결했으며, 이 과정에서 OpenAI를 주주로 영입했습니다. 소프트웨어 측면에서는 ROCm이 분기당 약 1회 버전씩 업데이트되며 주류 프레임워크 지원을 따라잡고 있지만, 최첨단 라이브러리 포팅과 커뮤니티 구축에는 여전히 시간이 필요합니다.

각 단계는 서로 분리되어 있지 않습니다. ZT Systems 인수는 단순히 서버 제조업체에 GPU를 판매하는 것이 아니라 OpenAI와 Meta가 필요로 하는 대규모 AI 클러스터를 설계할 수 있도록 하기 위한 것이었습니다. ROCm의 빠른 개발은 6GW 계약을 체결한 고객에게 베어메탈 서버를 제공하는 대신 배포 가능한 소프트웨어 스택을 제공하기 위한 것이었습니다. Ryzen AI Halo 출시는 동일한 ROCm 생태계를 데스크톱으로 확장하여 개발자가 3,000달러짜리 데스크톱에서 로컬 디버깅을 수행한 후 모델을 클라우드 MI450 클러스터에 배포할 수 있도록 하기 위한 것이었습니다.

이는 AMD가 엔비디아를 따라잡았다는 의미는 아닙니다. 두 건의 6GW 계약은 향후 구축 약속을 나타내며, 기가와트급 에너지 용량은 이미 출하된 칩의 수가 아니라 인프라 계획의 규모를 반영합니다. MI450의 구체적인 사양은 아직 공개되지 않았으며, 대규모 배포 후 칩의 실제 성능, 수율 및 안정성은 모두 미지수입니다. ROCm은 주류 프레임워크에서 "사용성"을 확보했지만, "문제가 발생했을 때 커뮤니티의 도움을 받을 수 있는" 수준에 도달하려면 더 많은 시간이 필요합니다. 그리고 CUDA가 17년 동안 축적해 온 기술은 몇 분기 동안의 빠른 반복 작업으로 소화될 수 없습니다.

엔비디아의 경쟁 우위는 소프트웨어에만 있는 것이 아닙니다. DGX Spark용 ConnectX-7 네트워크 카드는 또 다른 경쟁 구도를 보여줍니다. AMD가 비용 효율성과 개방성을 내세워 개발자들을 공략하는 반면, 엔비디아는 클러스터 확장성을 통해 분산 학습과 대규모 추론 파이프라인이 필요한 개발팀들을 확보하고 있습니다. DGX Spark 한 대의 가격은 3,999달러이며, 두 대와 네트워크 케이블을 구매하면 분산 프로토타입을 실행할 수 있습니다. 이러한 시나리오에서는 단일 머신 추론에서 ROCm이 가진 장점이 무색해집니다.

두 회사 간의 AI 관련 의견 차이는 결국 손바닥 크기의 이 박스 하나를 어떻게 선택할지에 대한 문제로 귀결됩니다. AMD 박스를 열면 익숙한 PC 환경이 나타나고, 거의 동일한 명령어로 PyTorch를 설치하고, 모델을 로드하고, 추론을 시작하면 됩니다. CUDA 백엔드만 지원하는 라이브러리를 사용해야 할 때까지는 모든 과정이 매끄럽습니다. 반면 NVIDIA 박스를 열면 하드웨어부터 드라이버, 컨테이너 툴체인까지 최적화된 전용 환경이 제공됩니다. 모든 것이 예상대로 시작되지만, 가격이 1,000달러 이상 더 비싸고, 향후 벤더를 변경할 때 발생하는 마이그레이션 비용까지 이미 확정되어 있다는 점이 다릅니다.

AMD는 엔비디아의 풀스택 시장에 직접적으로 도전하지 않았습니다. 대신, 엔비디아의 가격 경쟁력과 공급망이 모든 고객 수요를 충족시키지 못할 때 충분한 대안을 제공하는 보다 실용적인 전략을 택했습니다. 두 건의 6GW급 계약은 이러한 전략을 보여주는 가장 강력한 증거입니다. 라이젠 AI 헤일로는 데스크톱 환경에서 이 전략을 확장한 제품으로, 단순히 소형 AI PC를 만드는 트렌드를 맹목적으로 따르는 것이 아니라, "개방형 생태계와 비용 우위를 활용하여 특정 플랫폼에 종속되고 싶지 않은 개발자들을 유치하는" 방향으로 한 단계 더 나아간 것입니다.