화웨이는 첨단 리소그래피 장비 없이 어떻게 하이엔드 칩 시장에서 돌파구를 마련할 수 있을까요? 화웨이의 "도(道)의 법칙"이란 무엇일까요?

화웨이는 6년간의 연구 개발 끝에 381 칩의 양산을 완료했습니다.

화웨이의 허팅보 대표는 ISCAS 2026에서 "반도체 산업의 새로운 길 탐구와 실천"이라는 제목의 기조연설을 통해 무어의 법칙이 직면한 물리적, 경제적 난제를 해결하기 위한 새로운 반도체 산업 발전 원칙인 'T의 법칙'을 소개했습니다.

발표의 자세한 내용은 "다층 전자 시스템을 위한 시간 스케일링 이론"이라는 제목으로 SCIENCE CHINA Information Sciences에 게재될 예정입니다.

요약

지난 60년간 무어의 법칙에 따른 기하급수적인 칩 크기 축소는 반도체 산업의 지속적인 발전을 이끌어 왔습니다. 그러나 이러한 패러다임은 더 이상 효과적이지 않습니다. 단순히 칩 크기를 줄이는 것만으로는 기술적 이점이 줄어들고 있으며, 최첨단 칩 하나를 설계하는 데 드는 비용은 10억 달러를 넘어섰고, 첨단 공정에서 트랜지스터 하나당 비용은 더 이상 감소하지 않고 있습니다. 본 논문에서는 트랜지스터 면적을 기술 발전의 핵심 척도로 삼는 대신, 시간 자체를 핵심 지표로 정의하는 새로운 개발 패러다임으로서 시간 스케일링 기준(τ 스케일링)을 제안합니다. 이 기준은 트랜지스터 스위칭 동작부터 데이터 센터 워크로드에 이르기까지 12개 자릿수에 걸쳐 분포하는 통일된 특성 시간 상수 τ를 최적화 목표로 사용합니다.

이 글에서는 양산 준비가 완료된 두 가지 기술 사례를 소개합니다. 모바일 시스템 온 칩(SoC) 분야에서는 로직 폴딩 기술을 통해 디지털, 아날로그, 메모리 회로를 수직으로 적층한 활성층에 배치함으로써, 동일한 공정 조건에서 트랜지스터 밀도를 55% 높이고 에너지 효율을 41% 향상시켰습니다. 인공지능 시스템 분야에서는 메모리 시맨틱스를 위한 통합 버스 아키텍처, 캡슐화된 단거리 고속 광전자 인터커넥트 인터페이스, 그리고 3D 적층 폴딩 기술을 통합한 협업 설계 시스템을 통해 2035년까지 하드웨어 집적도를 100배 이상 높일 수 있을 것으로 기대됩니다. 방법론적 관점에서 볼 때, τ-스케일링은 데나드 스케일링 이후 컴퓨팅 아키텍처 전반에 걸쳐 적용 가능한 최초의 기술 원칙으로, 통합된 최적화 목표를 설정할 수 있습니다.

소개

1960년대 중반 이후 반도체 산업은 기술 발전을 나노미터 단위로 꾸준히 측정해 왔습니다. 트랜지스터 크기는 작아지고, 동작 주파수는 높아지며, 논리 게이트당 비용은 18개월마다 감소하는 개발 속도를 유지해 왔습니다. 무어의 법칙은 객관적인 산업 법칙인 동시에 전체 컴퓨팅 시스템 개발을 뒷받침하는 근본적인 합의 사항입니다.

이러한 일반적인 통념은 더 이상 유효하지 않습니다. 7nm 이하 공정 기술의 등장으로 기하학적 크기 축소만으로는 과거의 기술적 성과를 재현할 수 없게 되었습니다. 포토리소그래피 공정은 패터닝의 물리적 한계에 근접하고 있으며, 극자외선(EUV) 리소그래피 장비의 감가상각비는 웨이퍼 제조 비용의 상당 부분을 차지합니다. 단일 트랜지스터의 가격은 정체되거나 오히려 상승했습니다. 최고급 리소그래피 장비를 확보할 수 없는 기업들은 개발 제약에 더 빨리 직면하게 되고, 업계 전반에 가해지는 압력은 더욱 심각해지고 있습니다.

따라서 업계의 핵심 개발 과제는 변화했습니다. 더 이상 초소형 트랜지스터를 만드는 방법을 탐구하는 것이 아니라, 최적화 목표와 개발 목표를 명확히 하는 것이 핵심이 되었습니다.

지난 6년간 화웨이 반도체팀은 모바일 SoC, AI 가속기, 시스템 인터커넥트 아키텍처, 패키징 기술 등을 기반으로 칩 수준의 기술 연구를 진행해 왔습니다. 연구 결과, 기술적 돌파구는 완전히 새로운 공정 노드나 트랜지스터 아키텍처에 의존하는 것이 아니라 핵심 최적화 방향을 재구성하는 데 있다는 결론을 내렸습니다. 본 논문은 향후 10년간 전자 시스템의 발전이 기하급수적 스케일링을 넘어 시간 스케일링이라는 새로운 단계로 진입할 것이라고 주장합니다. 피코초 수준의 트랜지스터 스위칭 응답부터 초 단위의 데이터 센터 작업 처리까지, 컴퓨팅 아키텍처의 모든 수준에서 특성 시간 상수 τ를 중심으로 체계적인 시간 단축이 이루어질 것입니다.

본 논문은 2020년 5월부터 2026년 5월까지 양산 및 배포된 381개 칩의 연구 개발 경험을 바탕으로, τ 스케일링 기술 시스템을 과학적 방법론과 산업 로드맵이라는 두 가지 측면에서 설명한다.

I. 기하학적 스케일링 시대가 막을 내린다

반도체 산업의 핵심 과제는 오랫동안 트랜지스터의 크기를 지속적으로 줄이는 것이었습니다. 1965년 고든 무어는 트랜지스터 밀도가 약 2년마다 두 배로 증가할 것이라고 예측했습니다. 10년 후, 로버트 데너드는 전압과 크기를 비례적으로 줄이면서도 안정적인 전기장 세기를 유지할 수 있음을 증명하는 스케일링 이론을 제시했습니다.

지난 50년 동안 기하급수적 스케일링과 데너드 스케일링의 결합으로 단위 전력 소비량 대비 칩 성능과 단위 비용 대비 성능이 기하급수적으로 향상되었습니다.

이러한 개발 패러다임은 두 단계에 걸쳐 붕괴되었습니다. 2005년경에는 데나르 스케일링이 먼저 실패하면서 전압이 더 이상 특징 크기에 비례하여 감소하지 않게 되었고, 칩의 암흑기(dark silicon era)가 시작되었습니다. 7nm 노드 이후에는 FinFET 및 GAA(gate-all-around) 아키텍처에 기반한 기하 스케일링의 이점이 완전히 정점에 달했습니다. 업계에서는 이러한 현상의 핵심 원인으로 속도 포화 효과를 꼽는데, 이는 속도 포화로 인해 고유 지연이 채널 길이에 대한 2차 함수 관계에서 선형 함수 관계로 바뀌었고, 로컬 인터커넥트의 기생 저항과 정전 용량이 표준 셀의 지연 예산을 점차 지배하게 되었으며, 마스크 비용, EUV 감가상각, 설계 규칙의 복잡성이 급증하여 2nm 노드에서 최고급 칩 하나를 설계하는 데 드는 비용이 10억 달러를 넘어섰기 때문입니다.

경제적인 측면 또한 피할 수 없습니다. 첨단 공정에서 단일 트랜지스터의 비용은 정체되었고, 최상위 노드의 비용은 오히려 증가했습니다. 50년 동안 세대당 더 많은 트랜지스터와 더 낮은 비용을 유지해 온 업계의 논리가 완전히 무너진 것입니다.

화웨이 반도체는 첨단 리소그래피 장비의 한계와 기하학적 방식이 정점에 도달했다는 사실로 인해 결국 업계 전체가 직면하게 될 근본적인 문제, 즉 공정 노드 의존성에서 벗어나 근본적인 기술 진화 논리를 재구성해야 하는 상황에 놓였습니다.

둘째, 개발의 핵심이 공간에서 시간으로 옮겨가면서 무어의 법칙의 본질로 회귀했습니다.

실제 사용자 경험 관점에서 볼 때, 무어의 법칙의 핵심은 크기에 관한 것이 아니었습니다. 트랜지스터가 작아질수록 스위칭 응답 속도가 빨라지고, 상호 연결은 더욱 소형화되어 신호 전송 거리가 단축되며, 집적도가 높아질수록 데이터 상호 작용의 경계가 허물어집니다.

각 세대별 칩 개발의 핵심은 동작 시간을 지속적으로 단축하는 것입니다. 디바이스 레벨에서는 피코초에서 나노초로, 칩 레벨에서는 나노초에서 마이크로초로, 시스템 레벨에서는 마이크로초에서 초로 단축됩니다. 공간 크기를 줄이는 것은 동작 시간을 단축하기 위한 하나의 수단일 뿐입니다.

이러한 핵심 논리를 바탕으로 산업 최적화 접근 방식은 완전히 탈바꿈하여 시간을 핵심 지표로 삼게 되었습니다. 트랜지스터, 회로, 칩, 시스템 등 각 수준에서 특성 시간 상수 τ를 정의할 수 있으며, τ를 줄이는 것을 통합된 최적화 목표로 설정합니다. 기하급수적 스케일링은 시간 손실을 줄이는 여러 수단 중 하나일 뿐입니다.

본 논문은 이 기준을 τ-시간 스케일링 이라고 정의하며, 이는 무어의 기하급수적 스케일링을 계승하고 반도체 산업의 발전을 이끄는 새로운 기본 이론이다. 특성 시간 상수는 계층적 함수 관계를 만족한다.

각 레벨의 시간 상수(τ)는 하위 레벨의 기본 시간 소모와 현재 레벨의 아키텍처 및 통신 상호 작용 손실로 구성됩니다. τ의 시간 범위는 피코초에서 초까지, 공간 범위는 나노미터에서 킬로미터까지입니다. 각 레벨에서 τ를 줄이기 위한 기술적 접근 방식은 서로 다른 초점을 가지고 있습니다.

트랜지스터 레벨 : 캐리어 이동도, 스트레스 공정, 높은 유전 상수 금속 게이트 및 게이트 올어라운드 아키텍처를 개선하여 고유 스위칭 지연을 최적화하는 동시에 로컬 상호 연결 기생 저항 및 커패시턴스 파라미터를 줄입니다.
회로 계층 구조 : 신호 전송 임피던스-정전 용량 지연을 최적화하고, 저저항 전선 및 저유전율 재료를 사용하며, 수직 통합을 통해 배선 길이를 단축합니다.
칩 레벨 : 아키텍처 설계, 파이프라인 구성, 메모리 계층 구조 및 온칩 상호 연결 네트워크 최적화를 통해 연산 및 메모리 접근 지연 시간을 줄입니다.
시스템 수준 : 종단 간 데이터 전송 및 동기화 시간을 단축하고, 상호 연결 토폴로지, 통신 프로토콜 및 네트워크 아키텍처를 최적화합니다.

이는 칩의 세대별 반복 패턴으로 이어지는데, 차세대 칩의 시정수는 현재 세대의 시정수를 스케일링 계수로 나눈 값과 같습니다. 스케일링 계수는 적용 시나리오에 따라 달라지는데, 전력 소모가 제한적인 모바일 기기의 경우 연간 약 1.3배, 높은 신뢰성이 요구되는 자율 주행 시스템의 경우 약 1.5배, 그리고 컴퓨팅 성능이 경제적 이익을 직접적으로 좌우하는 AI 관련 사업의 경우 최대 10배까지 적용됩니다.

τ 메트릭은 전체 컴퓨팅 아키텍처를 통합적으로 관리할 수 있으며, 주파수, 지연 시간, 대역폭, 처리량과 같은 성능 매개변수는 해당 레벨에서 τ 메트릭에 의해 결정됩니다. 프로세스 개발, 회로 설계 및 시스템 아키텍처 담당자는 통합된 메트릭을 기반으로 협업하여 최적화할 수 있으므로, 각 레벨에서 독립적으로 최적화하고 사후적으로 타이밍 손실을 보정하는 기존의 개발 모델에서 벗어날 수 있습니다.

III. 논리적 폴딩: 모바일 SoC 기술의 실증적 증거

τ-스케일링 기술이 모바일 환경에서 대규모로 구현 및 테스트된 것은 이번이 처음입니다. 스마트폰 SoC는 단일 칩으로 전체 디바이스 시스템을 구성하는 독특한 구조를 가지고 있습니다. 이러한 디바이스는 여러 슬롯에 걸쳐 병렬 처리를 수행할 수 없으며, 링크 지연을 줄이기 위해 수천 개의 노드로 연결된 아키텍처를 갖추고 있지도 않습니다. 모든 성능은 단일 다이에서 구현되며, 단 몇 와트의 전력만 소비하는 동시에 디바이스 폼팩터로 인한 발열 제약에도 직면합니다.

2020년 이후, 첨단 제조 공정에 대한 접근성이 제한되면서 업계는 핵심적인 문제에 직면하게 되었습니다. 공정 기술의 반복적인 발전이 더 이상 이루어지지 않는 상황에서 단일 칩의 성능을 세대별로 지속적으로 향상시키는 방법은 무엇일까요?

그리하여 논리적인 접기 기술이 개발되었다.

정의 : 로직 폴딩은 시간 스케일링 원리를 따르는 설계 방식으로, 디지털 회로, 아날로그 회로 및 메모리 회로를 수직으로 적층된 여러 층의 활성 칩으로 분리하여 칩 성능, 전력 소비 및 면적을 최적화합니다.

디지털 회로는 크게 조합 논리 회로와 순차 논리 회로로 나뉩니다. 조합 논리 회로는 레지스터 간의 불리언 연산 회로를 의미하며, 순차 논리 회로는 상태 저장을 담당하는 플립플롭으로 구성됩니다. 디지털 시스템 성능의 상한은 인접한 플립플롭 사이의 임계 경로 지연에 의해 결정되며, 이 지연은 주로 회로의 기생 RC 파라미터와 경로상의 게이트 회로 개수에 영향을 받습니다. 기존 설계 방식에서는 게이트 회로를 동일 평면에 배치하고 상부 금속층을 이용하여 배선을 완료합니다. 배선 길이가 길어질수록 기생 RC 손실이 커지고 임계 경로의 속도가 느려집니다.

로직 폴딩은 평면 설계 사고방식에서 벗어나 핵심 경로 게이트 회로를 두 개 이상의 수직으로 쌓인 활성 칩 레이어로 분할 및 배열하고, 초미세 피치 하이브리드 본딩 기술을 통해 레이어 간 상호 연결을 완성합니다.

회로 설계 관점에서 볼 때, 다층 칩은 구성 요소가 여러 층에 분산된 통합된 완전한 아키텍처로 볼 수 있으며, 이는 마치 새로운 금속 배선층을 추가하는 것과 같습니다. 신호 트레이스 길이가 크게 줄어들고, 기생 저항 및 정전 용량 손실이 상당히 감소하며, 클록 스큐가 최적화되고, 동일한 제조 공정을 사용하여 더 높은 클록 주파수를 구현할 수 있습니다.

로직 폴딩의 성능 이점을 최대한 활용하려면 하이브리드 본딩 피치와 탑 메탈 피치의 비율을 낮게 유지해야 하며, 이상적으로는 3 미만이어야 합니다. 일반적으로 이 비율이 낮을수록 전반적인 성능이 향상됩니다. 현재 탑 메탈 피치는 약 720나노미터이며, 이에 해당하는 하이브리드 본딩 피치는 2마이크로미터 이내로 제어해야 합니다. 이상적으로는 이 비율이 1에 가까워져야 하며, 본딩 인터페이스에서의 배선 중복 손실이 완전히 제거됩니다.

오버레이 정확도 0.5마이크로미터 미만, 개구부 및 절연 영역 1.5마이크로미터 미만, 실리콘 관통 비아 피치 6마이크로미터 미만이라는 요구 사항을 동시에 충족하면서 본딩 피치를 달성하는 것은 물론, 지능형 이중화 기술을 활용하여 거의 최대 수율에 도달하는 생산 요구 사항까지 충족하는 것은 전체 산업 체인에 걸친 수년간의 공정 연구 개발을 통해 이루어졌습니다.

2026년형 키린 칩은 실제 테스트에서 여러 가지 중요한 성과를 거두었습니다.

트랜지스터 밀도는 한 세대 만에 155 MTr/mm²(제곱밀리미터당 백만 개의 트랜지스터)에서 238 MTr/mm²로 단계적으로 증가했습니다(트랜지스터 밀도 계산 공식은 다음과 같습니다).

키린 SoC 설계는 면적 활용률이 68%에 달하는데, 이는 기존에는 기하학적 소형화를 위해 3년이 걸렸던 것을 개선한 수치입니다.

이 SoC의 핵심 에너지 효율은 41% 향상되었고, 최대 클럭 속도는 거의 13% 증가했습니다.
두 계층에 걸쳐 고속 온칩 네트워크 데이터 경로를 구축함으로써 경로 면적이 55% 감소하고 전원 공급 안정성이 동시에 향상됩니다.
실리콘 후 클럭 스큐 최적화 방식은 칩 전체 성능 향상에 5% 이상 독립적으로 기여합니다.
정적 랜덤 액세스 메모리의 핵심 경로가 단축되고, 비트당 에너지 소비가 감소하며, 동작 주파수가 40% 이상 향상되어 저장 장치의 읽기/쓰기 속도, 에너지 소비 및 면적 지표가 종합적으로 최적화되었습니다.
주력 컴퓨팅 코어는 2계층 폴디드 아키텍처를 채택하여 클록 버퍼 수를 50% 이상 줄이고, 클록 스큐를 25% 감소시키며, 배선 길이를 약 30% 단축합니다.

앞서 언급한 성능 향상은 새로운 리소그래피 공정을 사용하지 않고 기존 공정 노드 내에서 모두 달성되었으며, 3차원 공간에서 논리 회로 레이아웃을 재구성함으로써 실현되었습니다.

2026년 키린 칩에 적용된 로직 폴딩 기술은 보수적인 구현 방식을 채택했습니다. 하이브리드 본딩 피치는 1.5마이크로미터였고, TSV(Through-Silicon Via) 접점은 최상층 금속층 바로 아래로 한 층만 이동했으며, 폴딩 기술은 칩 전체에 적용되지 않고 핵심 회로의 중요 경로에만 적용되었습니다. 그럼에도 불구하고 CPU 코어 클럭 속도는 올해 3.1GHz까지 회복되었습니다.

향후 10년 동안 로직 폴딩은 국부적인 중요 경로 폴딩에서 점차 전역적인 다층 폴딩으로 발전하여 단일 패키지에 3개, 4개 또는 그 이상의 활성 칩 레이어를 적층할 수 있게 될 것입니다. 저온 하이브리드 본딩 기술은 다층 구조의 열 방출 제한을 완화하고, TSV(Through-Silicon Via) 접점을 6번째 금속 레이어까지 이동시킴으로써 고층 배선 자원을 30% 이상 절약할 수 있습니다.

2026년에서 2035년 사이에 트랜지스터 밀도는 제곱밀리미터당 4억 개를 넘어설 것으로 예상됩니다. 로직 폴딩 기술은 키린 칩의 CPU 코어 클럭 속도를 크게 향상시켜 점차 4GHz 이상의 주파수로 끌어올리는 데 도움이 될 것입니다. 이러한 기술적 접근 방식은 실현 가능하며 상용화 비용 측면에서도 경제적 이점이 있습니다.

키린 칩 성능 코어 주파수 반복 추세

논리적 폴딩 코어 파라미터

하이브리드 본딩 피치: 2마이크로미터 미만, 양산형 1.5마이크로미터, 목표 피치 비율 1:1
겹침 정확도: 0.5 마이크로미터 미만
TSV(Through-Silicon Vias) 사양: 주요 치수, 절연 영역 1.5마이크로미터 미만, 간격 6마이크로미터 미만.
수율: 지능형 이중화 설계로 거의 최대 수율을 달성합니다.
트랜지스터 밀도: 세대당 55% 증가
성능 및 에너지 효율, 그리고 클럭 속도는 각각 41%와 13% 향상되었습니다.
정적 저장소 클럭 속도: 40% 이상 증가
핵심 장치 손실 측정 지표: 클록 버퍼 절반 감소, 스큐 25% 감소, 배선 길이 30% 단축.

IV. 피코초에서 마이크로초로의 최적화: AI 데이터 센터의 T-스케일링 응용

저전력 모바일 환경에서 기술의 실현 가능성을 검증한 결과, 이 원리는 초고성능 AI 학습 및 추론 환경에도 적용 가능하다. 수만 개의 칩이 협력하여 작동하는 AI 클러스터는 지난 10년간 전체 컴퓨팅 성능이 6배 이상 증가했다. τ-스케일링 방식을 전체 가치 사슬에 적용함으로써 이 기술을 성공적으로 구현할 수 있다.

인공지능 시스템 개발은 두 가지 주요 특징으로 요약됩니다. 첫째, 칩 클러스터 규모가 지속적으로 확장되고 있다는 점이고, 둘째, 시스템 에너지 소비와 비용이 연산보다는 데이터 전송에 주로 집중되고 있다는 점입니다. 대규모 컴퓨팅 클러스터는 에너지의 80% 이상을 데이터 상호 작용에 소비하고, 비용의 70% 이상을 스토리지 장치에 투자합니다. 따라서 칩, 랙, 패키지 내 데이터 전송 시간을 단축하는 것은 연산 시간을 최적화하는 것만큼이나 중요합니다.

AI 시나리오 시간 확장은 Unified Bus , Hi-ONE 캡슐형 근거리 광 인터커넥트 엔진, 3D Folding 캡슐형 토폴로지 재구성이라는 세 가지 협업 아키텍처에 기반합니다.

4.1 통합 버스: 시간 최적화를 핵심으로 하는 시스템 상호 연결 아키텍처.

기존의 멀티칩 가속 시스템은 호스트, 섀시 및 랙 간에 서로 다른 통신 프로토콜을 사용하는 복잡한 계층형 프로토콜을 가지고 있습니다. 프로토콜 변환, 데이터 캐싱 및 대화형 검증은 지속적으로 지연 시간을 증가시키고 안정성을 저하시키며 비용을 상승시킵니다.

통합 버스 아키텍처는 다계층 프로토콜 시스템을 버리고 글로벌 P2P 상호 연결 프로토콜을 채택하여 스토리지 액세스 로직에 기본적으로 적응합니다. 데이터 전송 시 프로토콜 변환이 필요 없으며 하드웨어를 통해 데이터 일관성을 유지하므로 기존의 소프트웨어 메시지 상호 작용 방식을 대체합니다. 실제 테스트 결과, 원격 액세스 지연 시간이 수십 마이크로초에서 100나노초로 단축되었고, 핵심 통신 링크 손실 시간은 약 500배 감소하여 대규모 랙 클러스터에서 통합 협업 운영이 가능해졌습니다.

4.2 고밀도 광전자 인터커넥트 엔진: 패키지 레벨 고속 광 인터커넥트

통신 지연 시간을 최적화한 후에는 새로운 병목 현상이 발생합니다. 단일 랙에 칩 밀도가 높아짐에 따라 전력 소비 밀도와 신뢰성이 물리적 한계에 도달하고, 기존 전기식 인터커넥트인 SerDes의 대역폭 또한 상한선에 가까워지고 있습니다. 단일 AI 칩 속도가 400Gb/s일 때는 구리 인터커넥트가 여전히 안정적이고 사용 가능하지만, 속도가 Tb/s 수준으로 높아지면 구리 솔루션은 완전히 실현 불가능해집니다. SerDes 전송 거리가 급격히 줄어들고, 케이블이 부피가 커지며, 랙 설치가 훨씬 어려워지고, 열 방출 및 전력 공급 여유가 부족해집니다.

화웨이 반도체는 AI 칩용 통합 버스의 대역폭과 정확히 일치하는 최대 8Tb/s의 단일 경로 대역폭을 갖춘 근거리 광 인터커넥트 모듈을 캡슐화한 고밀도 광 인터커넥트 노드 엔진인 Hi-ONE을 제안했습니다. 기술적 이점으로는 SerDes 전송 거리가 약 100cm에서 5cm로 단축되어 부피가 큰 구리 케이블이 필요 없어지고, 랙 간 전송 거리가 1m 미만에서 100m까지 확장되어 기가와트급 하이퍼스케일 데이터 센터에서 고밀도 상호 연결을 위한 물리적으로 실현 가능한 솔루션을 제공한다는 점입니다.

Hi-ONE의 설계 철학은 τ 스케일링 개념과 깊이 연관되어 있습니다. 높은 신호 충실도를 위해 전용 디지털 신호 처리기(DSP)를 사용하는 대신, 아날로그 이퀄라이제이션 향상 드라이버와 트랜스임피던스 증폭기로 구성된 선형 아키텍처를 채택했습니다. 또한, 비트 오류율 허용 오차를 완화하고 내결함성 메커니즘에 적응하는 통합 버스 프로토콜을 사용합니다. 물리 계층과 프로토콜 계층 간의 계층 간 절충을 통해 전력 소비, 비용 및 통합 복잡성을 줄였으며, 이는 τ 이론에 기반한 계층 간 협업 최적화의 전형적인 사례입니다.

4.3 N²와 N의 건축적 딜레마: 3차원 접힘의 불가피성

AI 가속기는 2.5D 팬아웃 패키징에 그쳐서는 안 됩니다. 그 근본적인 이유는 기하학적 위상 제약 조건 때문이며, 이는 2030년 이후의 기술 로드맵을 직접적으로 결정합니다.

기존의 2.5D AI 칩 아키텍처는 로직 다이가 중앙에 위치하고, HBM 메모리 스택과 SerDes 인터커넥트 인터페이스가 가장자리에 배치되며, 전압 레귤레이터 모듈이 주변부에 통합되어 있습니다. 모든 스토리지 신호, 인터커넥트 신호 및 전원 공급 전류는 내부 컴퓨팅 장치에 도달하기 위해 다이의 가장자리를 통과해야 합니다.

웨이퍼의 한 변의 길이를 N이라고 하자.

컴퓨팅 성능은 칩 면적에 정비례하며, 그 규모는 N² 입니다.
메모리 대역폭, 상호 연결 대역폭 및 전원 공급 능력은 에지 팬아웃에 의존하며, 그 규모는 N 에 불과합니다.

컴퓨팅 성능의 증가와 대역폭/전력 공급 용량의 선형적 증가 사이의 격차가 계속해서 벌어지면서 팬아웃 문제가 발생하고 있습니다. 논리 기술의 지속적인 발전에도 불구하고 토폴로지 아키텍처의 본질적인 한계를 극복하는 것은 불가능하며, 트랜지스터 수준의 최적화로는 아키텍처 수준의 물리적 제약을 해결할 수 없습니다.

3D 폴딩 기술은 이러한 교착 상태를 해결합니다. 기존에 칩 가장자리에 국한되었던 전원 공급 장치(후면 전원 공급 장치 + 통합 전압 레귤레이터), 고속 메모리(하이브리드 본딩 적층 구조), 광 인터커넥트 I/O(Hi-ONE 근거리 통합)를 칩의 수직면으로 이동시킵니다. 리소스 레이아웃은 가장자리 주변부에서 전체 영역에 걸친 3차원 배치로 업그레이드되며, 대역폭, 광 인터커넥트, 전원 공급 장치 용량 또한 컴퓨팅 성능의 성장 속도에 맞춰 N² 규모로 동시에 확장됩니다. 패키징 형태도 완전히 재구성됩니다. 로직 다이와 가장자리 주변 장치의 평면 구조에서 로직, 인터커넥트, 메모리, 전원 공급 장치가 시너지 효과를 내며 확장되는 수직 통합 스택 구조로 업그레이드됩니다.

 AI 기술 로드맵 타임라인

2030년 이전: Ascend SuperPoD는 칩, 2.5D 팬아웃, 마이크로 범프/표준 피치 하이브리드 본딩 3차원 적층의 성숙한 기술 반복을 기반으로 하며, 대표적인 제품으로는 2025년의 Ascend 910C, 2026년의 Ascend 950, 그리고 그 후속 제품인 Ascend 990이 있습니다.
2030년경: Ascend 990은 AI 가속기에 논리 폴딩 기능을 최초로 도입할 것입니다.
2030-2035년: 3D 폴딩이 기술 혁신의 핵심 매개체가 되고, 하드웨어 통합은 100배 이상 증가할 것으로 예상됩니다. τ 최적화는 더 이상 디바이스 프로세스 수준에 국한되지 않고 전체 스택의 모든 수준에 걸쳐 완전히 분산될 것입니다.

부록: AI 시스템 수준 확장을 위한 핵심 지표

통합 버스 원격 접속 지연 시간: 수십 마이크로초 → 100 나노초, τ가 약 500배 감소.
Hi-ONE 단일 모듈 대역폭: 8Tb/s, 단일 칩의 통합 버스 대역폭과 동일합니다.
Hi-ONE 전송 거리: 내부 SerDes 100cm → 5cm; 랙 간 1m → 100m
이 딜레마의 확산: 컴퓨팅 성능은 N²에 비례하여 증가하는 반면, 에지 대역폭/I/O/전력 공급은 N에 비례하여 선형적으로만 증가합니다.
3D 폴딩의 가치: 대역폭, 광 인터커넥트 및 전원 공급 장치가 에지에서 3D 표면으로 이동하여 N² 동기식 확장을 복원합니다.
2026-2035년 전망: 하드웨어 통합이 100배 이상 증가할 전망

V. 논리와 저장: 분리에서 심층 통합으로

τ 스케일링 기준은 로직 칩과 메모리 칩 산업 지형에도 변화를 가져왔습니다. 초기에는 업계에서 표준화된 버스를 사용했고 프로세서와 메모리를 의도적으로 구분하여 두 산업이 독립적으로 발전했습니다.

인공지능 시대가 도래하면서 기존의 분리 모델이 무너지고 있으며, 폭발적인 컴퓨팅 성능 증가는 스토리지 대역폭, 지연 시간, 패키징 기술의 한계를 끊임없이 시험하고 있습니다. 고대역폭 메모리, 하이브리드 본딩, 3차원 적층형 스토리지 기술은 데이터 전송이 연산만큼 중요하며, 로직 칩과 스토리지 칩이 물리적으로 통합되는 추세임을 보여줍니다. 이러한 흐름 속에서 산업의 주도권은 점차 스토리지 및 패키징 기업으로 이동하고 있습니다.

기술 융합은 피할 수 없는 추세이지만, 산업계가 얻을 수 있는 이익의 분배는 아직 불확실합니다. 하드웨어 분야의 미래 승자는 논리와 저장 기술의 심층적인 통합을 달성하고 장기적으로 상호 이익이 되는 협력 시스템을 구축할 것입니다. τ-스케일링은 계층 분리로 인한 손실을 직접적으로 보여주며, 업계가 구조적 통합 문제를 조속히 해결하도록 압박하고 있습니다.

VI. 기존 기술적 과제

τ 스케일링 시스템은 아직 개선 단계에 있으며, 해결해야 할 핵심 과제가 많습니다. 동시에 업계 전반의 기술 협력을 적극적으로 모색하고 있습니다.

EDA 툴체인 및 설계 방법론: 기존 EDA 툴은 평면 설계 시대에 맞춰 개발되었으며, 면적, 타이밍, 전력 소비를 독립적으로 최적화하는 방식이었고, 시스템 τ는 수동적인 결과물에 불과했습니다. 완전한 규모의 로직 폴딩을 위해서는 툴체인이 다층 적층 다이를 단일 연속 설계 단위로 처리하고, 단위 수준의 레이어 간 분할, 전역적으로 통합된 비용 함수 배치 및 라우팅, 레이어 간 타이밍 수렴을 지원해야 합니다. 또한, 수직 인터커넥트 기생 파라미터, 금지 영역 점유, 웨이퍼 간 공정 편차 등 기존 2차원 툴로는 처리할 수 없는 시나리오도 고려해야 합니다. 화웨이는 이러한 요구 사항을 충족하는 초기 툴체인을 개발했으며, 방법론에 대한 자세한 내용은 추후 공개될 예정입니다. τ 네이티브, 다중 물리, 3차원 아키텍처를 위한 오픈 소스 EDA 툴체인은 향후 10년을 위한 가장 핵심적인 기반 투자입니다.

웨이퍼 간 공정 편차: 로직 폴딩은 서로 다른 배치 또는 심지어 다른 공정 노드의 웨이퍼를 접합 및 적층하여 구현할 수 있습니다. 웨이퍼 간 임계 전압, 구동 전류 및 인터커넥트 RC 파라미터의 편차는 단일 웨이퍼 내의 편차보다 훨씬 크며, 이는 클록 분배 및 타이밍 마진 유지에 상당한 영향을 미칩니다. 지능형 이중화, 적응형 보상 및 τ(시간 지연)를 고려한 승인 프로세스를 기반으로 하는 완벽한 솔루션을 구축해야 합니다.

수직 인터커넥트 손실 : 하이브리드 본딩과 TSV(Through-Silicon Via)는 본질적으로 기생 저항 및 정전 용량 손실을 내포하고 있으며, TSV 금지 영역은 표준 셀 레이아웃 면적을 차지합니다. 로직 폴딩 구현은 핵심 기준인 τ<sub>gain</sub>(유효 칩 면적 + 배선 길이 감소) > τ<sub>loss</sub>(수직 인터커넥트 RC 기생)를 충족해야 합니다. 현재의 중요 경로 및 스토리지 시나리오는 이미 이득 임계값을 초과했으며, 본딩 간격이 줄어들면서 임계값 경계는 지속적으로 최적화되고 다양한 비즈니스 부하에 대한 차별화된 판단 기준에 맞춰 조정됩니다.

에너지 제약 조건: τ는 시간 기반 기준이지 에너지 기반 기준이 아닙니다. 아키텍처 속도가 10배 향상되더라도 전력 소비량이 10배 증가한다면, τ 스케일링 원칙을 위반하지 않더라도 전력망의 전력 공급 용량을 초과하게 됩니다. 따라서 τ 스케일링은 에너지 최적화 시스템과 함께 이루어져야 합니다. 즉, 스토리지 시맨틱 버스를 통해 프로토콜 스택 오버헤드를 제거하고, 캡슐화된 근거리 광 인터커넥트(NFOC)를 통해 단일 비트 에너지 소비량을 수십 배 감소시키고, 후면 전원 공급 장치, 인메모리/니어메모리 컴퓨팅, 데이터 센터 수준의 동적 주파수 및 전압 조절(DVFS) 등을 활용해야 합니다. 또한 τ 타이밍 마진을 활용하여 전력 이득과 에너지 소비량 사이의 균형을 역으로 맞춰야 합니다.

벤치마킹 시스템: 기존 업계 성능 벤치마크(Linpack, MLPerf, SPEC)는 단일 지표 평가에 맞춰 설계되어 τ 스케일링을 고려한 풀스택 최적화 요구사항을 충족하지 못합니다. 시스템의 각 계층에서 주요 지연 시간과 최적화 마진을 정량화하고 차기 단계의 핵심 투자 수준을 정확하게 파악할 수 있는 τ 프로파일 벤치마킹 시스템 구축이 시급합니다.

VII. 6년간의 연구 개발 축적을 바탕으로 향후 10년간의 발전을 전망합니다.

화웨이 반도체는 2020년 5월부터 2026년 5월까지 모바일, AI, 자동차, 산업 및 인프라 분야에 사용되는 381개의 칩 양산을 완료했습니다. 전체 제품군은 τ-시간 스케일링 이론의 타당성을 입증합니다. 디바이스 회로 수준에서 트랜지스터 밀도는 2031년까지 제곱밀리미터당 4억 개를 넘어설 것으로 예상됩니다. 칩 수준에서는 고정된 공정 기술 하에서 논리 폴딩을 통해 클럭 속도, 에너지 효율 및 집적도가 지속적으로 향상될 것입니다. 시스템 수준에서는 통신 지연 시간이 마이크로초에서 나노초로 단축되고 대규모 컴퓨팅 클러스터가 통합 협업을 달성할 것입니다. 산업 전망 측면에서 칩 클럭 속도는 2029년까지 4기가헤르츠에 도달하고 모바일 칩의 에너지 효율은 3~5년 내에 두 배로 증가하며 인공지능 하드웨어의 집적도는 2035년까지 100배 증가할 것입니다.

제품 반복 개발과 비교했을 때, τ 스케일링이 가져온 방법론적 혁신은 훨씬 더 광범위한 의미를 지닙니다. 이는 데나르의 법칙 이후 전체 컴퓨팅 아키텍처 최적화를 위한 최초의 통합 표준으로, 공정, 회로, 아키텍처 및 소프트웨어 팀이 동일한 지표를 중심으로 협력적으로 업그레이드할 수 있도록 합니다. 동시에 업계 경쟁 구도 또한 변화하고 있습니다. 더 이상 최첨단 리소그래피 공정만을 추구할 필요가 없으며, 패키징, 메모리 대역폭 및 인터커넥트 아키텍처가 핵심 경쟁 우위 요소가 되었습니다.

무어의 법칙에 따른 성능 저하를 기술 발전과 동일시하는 오랜 업계의 인식이 큰 변화를 겪고 있습니다. 기하급수적 확장의 시대는 막을 내렸고, 다층 아키텍처에서의 시간 최적화를 통한 성능 도약이 새로운 방향으로 떠오르고 있습니다. 향후 6~10년 동안, τ-스케일링을 핵심 개발 목표로 삼는 기업과 생태계가 차세대 컴퓨팅 산업을 주도할 것입니다.

산업 발전의 미래는 도전으로 가득 차 있지만, 진화의 방향은 명확하고 확실합니다. 다양한 기술적 과제는 한 기업이 극복할 수 있는 것이 아닙니다. 설계 도구, 산업 표준, 소자 물리학, 비즈니스 모델 모두 업계 전체의 협력이 필요합니다. 이 글은 기술적 사례를 요약하는 동시에 업계 동료들이 함께 탐구하고 발전해 나가기를 진심으로 권유하는 글입니다.