칩렛 아키텍처 혁명: AMD의 구조적 비용 우위 | AMD 상세 분석

← AMD 종목 분석으로 돌아가기

칩렛은 하나의 거대한 칩 대신 여러 개의 작은 칩을 조합하는 반도체 설계 방식입니다. AMD는 2017년 EPYC Naples에서 업계 최초로 상용화했고, 같은 성능을 모놀리식 대비 41% 저렴하게 구현했습니다. 2026년 현재 NVIDIA도 Rubin에서 칩렛으로 전환하며, 칩렛은 AI 반도체의 표준 설계 패러다임이 되고 있습니다.

칩이 너무 커지면 무슨 일이 벌어지는가

반도체 역사상 "더 큰 칩 = 더 좋은 성능"은 진리였습니다. 트랜지스터를 더 많이 넣으면 더 빠르고, 더 많이 계산할 수 있으니까요. 그런데 어느 순간, 이 공식이 깨지기 시작했습니다. 칩이 너무 커지면 만들 수 없는 물리적 한계에 부딪힌 것입니다.

이걸 레고에 비유해 봅시다.

레고 블록으로 집을 만든다고 상상해 보세요. 작은 블록을 조립하면 하나가 불량이어도 그 블록만 교체하면 됩니다. 그런데 만약 집 전체를 하나의 거대한 덩어리로 찍어내야 한다면? 금이 하나만 가도 전체를 버려야 합니다. 게다가 주형(틀)이 커질수록 금이 갈 확률은 급격히 올라갑니다.

이 비유가 이 글 전체를 관통합니다. 모놀리식 칩은 한 덩어리로 깎은 대형 조각상이고, 칩렛은 레고 블록입니다. 블록을 연결하는 결합 핀은 Infinity Fabric이고, 모든 블록이 올라가는 베이스플레이트는 I/O 다이입니다. 그리고 어떤 제조사의 블록이든 결합 가능하게 만드는 표준 규격이 UCIe입니다.

AMD는 이 문제를 "큰 칩 하나" 대신 "작은 칩 여러 개를 레고처럼 조립하자"로 풀기로 했습니다. 이것이 칩렛 혁명의 시작입니다.

실제 숫자를 보면 이해가 빠릅니다. 반도체 제조에서 웨이퍼(실리콘 원판) 위에는 랜덤하게 결함(defect)이 발생합니다. 작은 칩은 결함을 피할 확률이 높지만, 큰 칩은 결함 하나에 걸릴 확률이 기하급수적으로 올라갑니다. 이것이 "수율 절벽"입니다.

그리고 물리적 상한도 있습니다. EUV 리소그래피 장비가 한 번에 새길 수 있는 최대 면적은 858mm²(26mm x 33mm)입니다. NVIDIA H100은 약 800mm²로 이미 이 한계에 근접했습니다. 더 큰 칩은 물리적으로 만들 수 없습니다.

이 물리적 한계를 AMD는 어떻게 돌파했는가? 그 방법은 AMD만의 독점적 우위인가? 이것이 이 글의 관통 질문입니다.

1. 작은 칩이 왜 싼가: 수율의 물리학

같은 트랜지스터 수를 칩렛으로 구현하면 최대 41% 저렴합니다. 비결은 놀랍도록 간단합니다. 결함 하나당 버리는 실리콘의 양이 줄기 때문입니다. 도자기 장인 비유로 시작해 봅시다.

1.1 도자기 장인의 딜레마

100cm짜리 대형 접시를 만든다고 생각해 보세요. 가마에서 굽는 동안 어디선가 금이 하나 가면, 접시 전체를 폐기해야 합니다. 그런데 같은 면적을 25cm 접시 4개로 나눠서 만들면? 금이 간 접시 하나만 버리고, 나머지 3개는 살릴 수 있습니다.

물론 4개를 따로 만들면 재료가 10% 정도 더 들기는 합니다(연결 부위, 개별 마감 등). 그런데 놀랍게도 완성품 비용은 41% 싸집니다. 왜 그런지 수율의 물리학을 보겠습니다.

1.2 수율 공식: 면적이 커지면 수율이 급락합니다

다이(칩) 면적이 2배가 되면, 수율은 2배가 아니라 기하급수적으로 떨어집니다. 이것이 칩렛 경제학의 출발점입니다.

반도체 업계에서 사용하는 Murphy 수율 모델은 웨이퍼 위의 결함이 군집 분포(clustered distribution)를 따른다고 가정합니다. 이 모델에 따르면, 대형 다이(600mm²+)에서 "수율 절벽"이 시작됩니다.

다이 면적별 추정 수율

90%

87%

80%

68%

50%

73%*

50mm²

100mm²

200mm²

300mm²

500mm²

800mm²

출처: Murphy 모델 + 업계 추정. *800mm²는 TSMC 5nm 성숙 공정 기준. 초기 램프업 시 40~60%

50mm² 다이의 수율은 90%를 넘지만, 면적이 커질수록 수율이 급격히 하락합니다. 800mm² 다이는 TSMC 5nm 성숙 공정 기준으로도 73% 수준입니다. 초기 램프업 시기에는 40~60%까지 떨어질 수 있습니다.

왜 면적이 커지면 수율이 급락하는가?

직관적으로 이해하기 위해 확률로 생각해 봅시다. 웨이퍼 위에 결함이 랜덤하게 분포한다면, 작은 칩은 "결함을 피해 갈 확률"이 높습니다. 큰 칩은 면적이 넓으니까 결함에 "맞을 확률"이 높아집니다. 핵심은 이 관계가 선형이 아니라는 것입니다. 면적이 2배가 되면 불량 확률은 2배보다 더 올라갑니다. 수학적으로는 지수적(exponential)으로 증가합니다.

레고 비유로 돌아오면, 작은 블록(50mm²)은 100개 만들면 90개가 양품입니다. 큰 블록(500mm²)은 100개 만들면 50개만 양품입니다. 같은 웨이퍼, 같은 공정, 같은 결함 밀도인데도 크기만으로 이런 차이가 납니다.

1.3 AMD가 증명한 숫자: 비용 0.59x

AMD는 2021년 ISCA 학회에서 칩렛의 비용 우위를 정량적으로 공개했습니다. EPYC Naples(2017, 14nm)의 32코어 서버 CPU를 예로 들었습니다.

모놀리식(한 덩어리)으로 설계하면 777mm² 단일 다이가 필요합니다. AMD의 자체 평가는 "매우 비싸고 경쟁력 없음"이었습니다. 칩렛으로 설계를 전환하면 213mm² x 4개 = 총 852mm²로, 실리콘 면적은 10% 더 많이 사용합니다. 그런데 최종 비용은 모놀리식의 0.59x입니다.

모놀리식 설계

단일 다이 777mm²

비용 1.00x (기준)

결함 1개 발생 시 777mm² 전체 폐기

수율 절벽에 직면 (대형 다이)

칩렛 설계 (레고 조립)

213mm² x 4개 = 852mm² (+10%)

비용 0.59x (41% 절감)

결함 1개 발생 시 213mm²만 폐기

소형 다이로 수율 90%+ 유지

출처: AMD ISCA 2021, NextPlatform

41% 절감의 메커니즘을 단계별로 풀어봅시다

도자기 비유에서 레고 비유로 전환할 타이밍입니다. 칩렛의 비용 절감은 세 단계로 작동합니다.

첫 번째, 소형 다이의 높은 수율입니다. 213mm² 다이는 수율이 약 85~90%입니다. 777mm² 다이의 수율은 약 65~70%입니다. 같은 웨이퍼에서 양품 비율이 20%p 이상 차이 납니다.

두 번째, 폐기 실리콘의 감소입니다. 결함이 발생했을 때, 모놀리식은 777mm² 전체를 버립니다. 칩렛은 213mm²만 버립니다. 폐기 면적이 1/4 수준입니다. 이것이 핵심입니다.

세 번째, 재사용 가능한 설계입니다. AMD는 EPYC용 CCD(Core Chiplet Die)를 Ryzen 데스크탑에도 그대로 재사용합니다. 같은 레고 블록으로 다른 완성품을 만드는 것입니다. NRE(Non-Recurring Engineering, 설계 비용)를 두 제품군이 분담하므로 제품당 개발비가 절반으로 줄어듭니다.

1.4 학계의 정량 검증: Chiplet Actuary

AMD만 이런 주장을 하는 것이 아닙니다. 칭화대 연구팀이 개발한 Chiplet Actuary 모델은 칩렛의 경제성을 체계적으로 분석했습니다.

핵심 발견은 세 가지입니다. 5nm, 800mm² 시스템에서 칩렛은 다이 비용을 최대 50% 절감합니다. 결함 비용이 전체 제조 비용의 50% 이상을 차지하기 때문에, 칩렛의 수율 개선 효과가 극대화됩니다. 동일 칩렛으로 여러 시스템을 구성(SCMS)하면 NRE를 75%까지 줄일 수 있습니다. AMD가 EPYC과 Ryzen에서 같은 CCD를 재사용하는 것이 바로 이 전략입니다.

다만 성숙 공정(14nm)에서는 수율 개선 35% vs 패키징 오버헤드 25~50%로 효과가 제한적입니다. 5nm 기준으로도 NRE 회수에 200만 유닛 이상이 필요합니다.

칩렛 다이 비용 절감 효과 (공정별)

-50%

-35%

5nm 800mm²

14nm 800mm²

출처: Chiplet Actuary, arXiv 2203.12268. 패키징 오버헤드 차감 전

시사점은 명확합니다. 칩렛의 비용 우위는 첨단 공정 + 대면적 + 대량 생산에서 극대화됩니다. AMD의 EPYC(서버 CPU)과 Instinct(AI GPU) 시리즈는 이 세 조건을 모두 충족합니다.

1장 결론: 다이 면적이 커지면 수율이 기하급수적으로 하락합니다. 이것이 칩렛 경제학의 출발점입니다. AMD는 Naples에서 같은 성능을 41% 싸게 만들 수 있음을 증명했습니다. 첨단 공정 + 대면적에서 효과가 극대화되며, 성숙 공정이나 소형 칩에서는 효과가 제한적입니다.

2. 칩렛의 대가: 공짜 점심은 없습니다

칩렛이 비용을 41% 줄여주는 마법 같은 기술이라면, 왜 모든 반도체 회사가 처음부터 칩렛을 쓰지 않았을까요? 대가가 있기 때문입니다.

레고 비유로 설명하면, 레고 블록을 조립할 때 블록 사이의 결합 핀(인터커넥트)이 필요합니다. 이 결합 핀이 추가 비용을 만들고, 블록 사이에 미세한 틈(지연)을 만들고, 결합 부위에서 힘(전력)이 소모됩니다. AMD가 9년간 풀어온 숙제는 바로 "이 결합 핀의 대가를 어떻게 최소화할 것인가"였습니다.

2.1 인터커넥트 지연: 하나의 칩이 아닌 대가

단일 다이 내부의 신호는 수 밀리미터를 나노초 이내에 이동합니다. 칩 안에 있는 배선은 금속(구리) 선이 촘촘하게 깔려 있어서, 전기 신호가 거의 저항 없이 흐릅니다.

칩렛 사이의 신호는 다릅니다. 한 칩에서 나와서, 패키지 기판이나 인터포저를 거쳐, 다른 칩으로 들어가야 합니다. 이 추가 경로가 지연을 만듭니다. UCIe 표준 기준으로 다이-to-다이 지연은 2ns 미만이지만, 단일 다이 내부에 비하면 훨씬 깁니다.

왜 GPU에서 이 지연이 특히 문제인가?

CPU는 코어 수가 수십 개이고, 각 코어가 비교적 독립적인 작업을 처리합니다. "코어 1은 이메일 처리, 코어 2는 파일 압축" 같은 식입니다. 코어 사이에 데이터를 자주 주고받지 않아도 되니까, 칩렛 사이의 지연이 큰 문제가 되지 않습니다.

GPU는 완전히 다릅니다. 수천 개의 코어가 동시에 같은 데이터에 접근합니다. AI 훈련을 생각해 보면, 수천 개 코어가 같은 행렬 데이터를 읽고, 계산 결과를 다시 모아야 합니다. 칩렛 분할 시 이 코어들이 서로 다른 칩에 나뉘어 있으면, 인터커넥트를 통해 데이터를 주고받는 데 걸리는 시간이 직접 성능에 영향을 줍니다.

이것이 NVIDIA가 H100까지 모놀리식을 고수한 핵심 이유입니다. NVIDIA의 선택은 고집이 아니라, GPU 워크로드의 특성에 기반한 합리적 판단이었습니다.

AMD의 해결책은 Infinity Cache를 통한 지연 숨기기입니다. MI300X는 Infinity Cache 이론 대역폭 17.2 TB/s를 확보하여, 코어들이 자주 접근하는 데이터를 캐시에 미리 올려두어 다이 간 데이터 이동을 최소화했습니다.

2.2 대역폭과 전력: 보이지 않는 비용

칩렛 간 통신에는 추가 전력이 소모됩니다. 이 전력은 연산에 쓰이지 않고, 순수하게 데이터를 한 블록에서 다른 블록으로 옮기는 데만 소비됩니다.

UCIe 에너지 효율은 약 0.4 pJ/bit으로, PCIe Gen5 대비 10배 효율적입니다. 그러나 모놀리식 내부 배선 대비로는 여전히 수십~수백 배 비효율적입니다. 서버나 데이터센터에서는 전력 예산이 넉넉하니까 이 오버헤드를 감당할 수 있습니다. 하지만 노트북에서는 어떨까요?

노트북의 전력 예산은 15~45W입니다. 여기서 인터커넥트 오버헤드를 정당화하기 어렵습니다. 그래서 AMD도 Ryzen AI 300(Strix Point) 같은 모바일 프로세서는 모놀리식 APU로 설계합니다. "모든 곳에 칩렛을 쓴다"가 아니라, "칩렛이 유리한 곳에만 쓴다"는 것이 AMD의 전략입니다.

2.3 패키징 비용: 칩렛의 숨겨진 가격표

레고 블록을 연결하려면 베이스플레이트(기판)가 필요합니다. 반도체에서 이 베이스플레이트에 해당하는 것이 고급 패키징(2.5D, 3D)입니다. 그런데 이 패키징의 비용이 칩 자체 비용에 준할 만큼 비쌉니다.

Chiplet Actuary 연구에 따르면, 2.5D 패키징 시 패키징 비용이 칩 비용의 50%까지 차지합니다(7nm, 900mm² 기준). MCM(멀티칩 모듈) 패키징은 그나마 칩 비용의 25% 추가 수준입니다.

TSMC의 CoWoS(Chip on Wafer on Substrate) 인터포저 리드타임은 50주+이고, 2026년 가격 인상도 15~20% 예정입니다. UCIe 인터페이스가 소형 칩렛에서 다이 면적의 10~15%를 차지하기도 합니다. 결합 핀(인터커넥트)이 레고 블록 자체만큼 비싸질 수 있다는 뜻입니다.

그렇다면 칩렛은 정말 싼 것인가?

전체 비용 구조를 분해해 봅시다.

칩렛 시스템의 총 비용 비교 (개념적)

100%

84%

~100%

모놀리식

칩렛(MCM)

칩렛(2.5D)

출처: Chiplet Actuary 기반 개념 도시. MCM = 다이 59% + 패키징 25%. 2.5D = 다이 50% + 패키징 50%

MCM 패키징 기준으로는 다이 비용 59% + 패키징 25% = 총 약 84%로 여전히 16% 저렴합니다. 하지만 2.5D 고급 패키징을 쓰면 다이 비용 절감분을 패키징 비용이 거의 상쇄합니다. 칩렛이 비용 면에서 유리하려면 충분히 큰 시스템(500mm²+)이어야 합니다.

칩렛이 유리한 조건: 첨단 공정(5nm 이하) + 대면적(500mm²+) + 대량 생산(200만+) + 서버/데이터센터

칩렛이 불리한 조건: 성숙 공정(14nm+) + 소면적(200mm² 이하) + 소량 생산 + 모바일/노트북

AMD의 포트폴리오에서 EPYC(서버)과 Instinct(AI GPU)는 유리한 조건을 모두 충족합니다. Ryzen 모바일은 모놀리식을 유지합니다. "언제 레고를 쓰고, 언제 한 덩어리를 쓸지" 아는 것이 칩렛 전략의 핵심입니다.

2장 결론: 칩렛의 대가는 인터커넥트 지연, 전력 오버헤드, 패키징 비용입니다. GPU는 CPU보다 칩렛 분할에 민감합니다. NVIDIA가 모놀리식을 오래 고수한 이유입니다. 칩렛은 모든 상황에서 유리하지 않습니다. 서버/데이터센터에서만 압도적 우위를 보입니다.

3. AMD의 칩렛 9년사: Naples에서 MI455X까지

AMD는 2017년 EPYC Naples에서 업계 최초로 칩렛을 상용화했고, 9년간 5세대에 걸쳐 칩렛 설계를 진화시켜 왔습니다. CPU에서 시작해 GPU로 확장하고, 2D 배치에서 3D 적층으로 발전했습니다.

레고 비유로 보면, 처음에는 베이스플레이트 위에 같은 블록 4개를 나란히 놓았던 것이(Naples), 이제는 블록 위에 블록을 쌓고(3D 적층), 심지어 72개 블록을 하나의 거대한 구조물로 연결하는 수준(Helios 랙)까지 진화한 것입니다. 이 경험의 축적이 AMD의 진짜 자산입니다.

3.1 CPU 칩렛의 진화: Naples에서 Venice까지

4개 칩렛으로 시작한 Naples는 이제 192코어 Venice로 진화했습니다. 핵심은 2세대 Rome에서 컴퓨팅 다이(CCD)와 I/O 다이(IOD)를 분리한 결정이었습니다.

왜 CCD와 IOD를 분리하는 것이 혁신인가?

CPU에는 두 종류의 기능이 있습니다. 연산을 담당하는 부분(코어, 캐시)과 외부 통신을 담당하는 부분(PCIe, 메모리 컨트롤러)입니다. 연산 부분은 최신 미세 공정(5nm, 3nm)을 써야 빠릅니다. 하지만 외부 통신 부분은 최신 공정이 필요 없습니다. 아날로그 회로가 많고, 오히려 성숙 공정(14nm, 6nm)에서 더 안정적으로 작동합니다.

레고 비유로 돌아오면, 레고 블록 중에 특수 블록(연산)은 비싼 재료로 만들어야 하고, 기본 블록(I/O)은 저렴한 재료로 충분합니다. CCD/IOD 분리는 비싼 재료를 정말 필요한 블록에만 쓰겠다는 결정이었습니다. 이것이 이종 공정 혼합의 시작입니다.

세대	제품	연도	칩렛 구성	최대 코어	핵심 혁신
1세대	Naples	2017	4x Zeppelin (GF 14nm)	32	최초 상용 칩렛 CPU
2세대	Rome	2019	8x CCD (TSMC 7nm) + 1x IOD (GF 14nm)	64	CCD/IOD 분리, 이종 공정 최초
3세대	Milan	2021	8x CCD (TSMC 7nm) + 1x IOD	64	Zen 3 IPC +19%
4세대	Genoa	2022	12x CCD (TSMC 5nm) + 1x IOD (6nm)	128	5nm 전환, 코어 수 확장
5세대	Turin	2024	CCD (TSMC 3nm) + IOD	192	인텔 대비 2.7x 성능
6세대	Venice	2026E	CCD (TSMC 2nm) + IOD	미발표	Zen 6, 2nm 전환

Rome(2세대)의 결정적 혁신을 한 줄로 정리하면 이렇습니다. CCD는 TSMC 7nm, IOD는 GF 14nm로 별도 제조합니다. I/O 기능은 첨단 공정이 필요 없으므로 성숙 노드에서 만들어 비용을 절감합니다. 그리고 EPYC용 CCD를 Ryzen 데스크탑에도 재사용하여 NRE를 두 제품군이 분담합니다. AMD ISCA 2021 논문의 핵심 주장 중 하나입니다.

I/O 다이를 성숙 노드로 빼는 이 전략은 비용 절감을 넘어 또 하나의 효과가 있습니다. 첨단 노드(3nm) 웨이퍼를 연산 다이에만 집중 투입하므로, 제한된 최첨단 용량을 더 효율적으로 쓸 수 있습니다. AMD GPU 생산의 진짜 병목인 TSMC 용량 문제와 직결되는 지점입니다.

🔬TSMC 공급과 AMD의 천장

칩렛이 아무리 효율적이어도, GPU 매출의 천장은 결국 TSMC가 배분하는 CoWoS 용량이 결정합니다

→

3.2 GPU 칩렛의 진화: MI250X에서 MI455X까지

CPU보다 GPU에 칩렛을 적용하는 것이 훨씬 어렵습니다. 앞서 2장에서 설명했듯이, GPU의 수천 개 코어는 동시에 같은 데이터에 접근해야 하므로 칩렛 사이의 통신 품질이 성능을 직접 좌우합니다. AMD는 MI250X(2021)에서 이 도전을 시작하여 MI300X(2023)에서 3D 적층까지 확장했습니다. 12개 다이를 하나의 GPU로 작동시키는 것은 CPU 칩렛과는 차원이 다른 엔지니어링입니다.

세대	제품	연도	다이 구성	트랜지스터	핵심 혁신
CDNA 2	MI250X	2021	2 GCD (TSMC 6nm)	-	최초 멀티다이 GPU
CDNA 3	MI300X	2023	8 XCD + 4 IOD = 12다이	1,530억	3D SoIC 적층, UMA 192GB
CDNA 4	MI350X	2025	8 XCD + 2 IOD = 10다이	1,850억	FP4 최초, 추론 35x
CDNA 5	MI455X	2026	2 GCD + 2 IOD = 12다이	3,200억	세계 최초 2nm AI GPU

MI300X의 3D 적층: 레고를 위로 쌓다

MI250X가 "2개 블록을 나란히" 놓은 것이었다면, MI300X는 전혀 다른 차원으로 진입합니다.

MI300X에서 AMD는 레고 블록을 옆으로만 놓는 것이 아니라, 위로 쌓기 시작했습니다. 2개의 XCD(연산 다이)를 1개의 IOD(I/O 다이) 위에 SoIC 하이브리드 본딩으로 수직 적층했습니다. 이렇게 하면 다이 사이의 거리가 물리적으로 극단적으로 가까워져서, 인터커넥트 지연을 대폭 줄일 수 있습니다.

결과적으로 192GB HBM3 메모리를 단일 주소 공간(UMA, Unified Memory Access)으로 통합했습니다. 소프트웨어 관점에서 12개 다이가 하나의 칩처럼 보입니다.

MI455X의 구조 전환

MI455X(CDNA 5, 2026)에서는 흥미로운 구조 변환이 일어납니다. XCD 8개를 반복하는 패턴에서 대형 GCD(Graphics Compute Die) 2개 + IOD 2개로 변경됩니다. 이것은 NVIDIA Rubin R200의 "대형 컴퓨팅 다이 + 전용 IO 다이" 패턴과 구조적으로 수렴하는 것입니다. 양사가 같은 결론에 도달했다는 점이 의미심장합니다.

3.3 Infinity Fabric: 레고 블록을 연결하는 결합 핀

칩렛의 성능은 칩렛 자체가 아니라, 칩렛을 연결하는 인터커넥트가 결정합니다. 레고에서 블록의 품질이 아무리 좋아도, 결합 핀이 헐거우면 완성품이 흔들리는 것과 같습니다. AMD의 Infinity Fabric은 이 결합 핀에 해당합니다. 5세대에 걸쳐 CCX 내부 연결에서 랙 스케일 인터커넥트로 진화했습니다.

세대	연도	적용	핵심 발전
1세대	2017	Naples, Ryzen 1000	CCX 빌딩 블록 도입
2세대	2019	Rome, Ryzen 3000	이종 공정 칩렛 지원
3세대	2022	Milan/Genoa, MI250X	CPU-GPU 코히런트, 100 GB/s/link
4세대	2023	MI300X	SoIC 3D, AP bisection 6 TB/s
5세대	2026	MI455X, Venice	노드에서 랙 스케일로 확장

4세대의 도약

MI300X에서 Infinity Fabric 4세대는 AP(Advanced Package) bisection bandwidth 6 TB/s를 달성했습니다. 8개 XCD가 192GB HBM3에 균일하게 접근할 수 있게 되었습니다. 레고 비유로 하면, 8개 블록이 어느 방향에서든 베이스플레이트(메모리)에 동일한 속도로 접근할 수 있다는 뜻입니다.

5세대의 확장: 블록에서 건물로, 건물에서 도시로

5세대 Infinity Fabric은 칩 내부에서 랙(서버 전체)으로 스케일을 확장합니다. MI455X Helios 랙에서는 72개 GPU를 Infinity Fabric으로 연결하여 2.9 AI exaflops(FP4)와 260 TB/s 집계 대역폭을 달성합니다. 레고로 치면, 블록을 조립해서 집을 만들고, 집을 연결해서 도시를 만드는 수준입니다.

Infinity Fabric의 전략적 가치는 단순한 인터커넥트 기술이 아니라, AMD가 9년간 축적한 설계 노하우의 결정체라는 점입니다. 경쟁사가 칩렛 구조를 모방하더라도, 인터커넥트 최적화 경험을 단기간에 따라잡기 어렵습니다.

3장 결론: AMD는 CPU(2017)에서 GPU(2021)로, 2D에서 3D(2023)로 칩렛을 확장해왔습니다. Infinity Fabric은 5세대에 걸쳐 CCX 내부에서 랙 스케일까지 진화했습니다. 이 9년의 경험 축적이 AMD의 진짜 칩렛 자산입니다.

4. 경쟁자들의 칩렛 전환: 추격이 시작되었습니다

NVIDIA는 B200에서 듀얼다이로, Rubin에서 4-타일 MCM으로 전환했습니다. 인텔은 Ponte Vecchio에서 47개 타일을 시도했다가 실패한 후, Meteor Lake에서 실용적 접근으로 선회했습니다. 칩렛은 더 이상 AMD만의 전유물이 아닙니다. 그러나 "칩렛을 쓴다"와 "칩렛을 잘 쓴다"는 완전히 다른 이야기입니다.

4.1 NVIDIA: 모놀리식의 왕이 칩렛을 택한 이유

왜 NVIDIA는 모놀리식을 고수했나?

NVIDIA가 H100까지 모놀리식을 고수한 것은 고집이 아니라 합리적 선택이었습니다. GPU는 수천 개 코어가 동일 데이터를 공유하므로, 모든 SM(Streaming Multiprocessor)이 L2 캐시를 균일한 지연으로 공유해야 합니다. 칩렛으로 분할하면 이 균일성이 깨집니다.

NVIDIA는 단일 다이 내부에서 최적화 가능한 모든 것을 극한까지 끌어올리는 전략을 택했습니다. H100은 약 800mm², 800억 트랜지스터를 단일 칩에 집적했습니다. 레티클 한계(858mm²)에 거의 도달한 것입니다.

그런데 왜 이제 칩렛으로 전환하나?

답은 간단합니다. 더 이상 선택지가 없어졌기 때문입니다.

AI 모델이 커지면서 필요한 트랜지스터 수가 폭증했습니다. H100의 800억에서 B200의 2,080억으로, 다시 R200의 3,360억으로. 하나의 다이에 이 많은 트랜지스터를 넣는 것은 물리적으로 불가능합니다. 레티클 한계를 넘었으니까요.

B200(2024)이 NVIDIA의 첫 듀얼다이 GPU였습니다. 2개의 약 800mm² 다이를 NV-HBI(NVIDIA High Bandwidth Interface) 10 TB/s로 연결하여 2,080억 트랜지스터를 구현했습니다. 핵심은 CUDA에 단일 GPU로 보인다는 점입니다. 소프트웨어 호환성을 깨지 않으면서 칩렛으로 전환한 것입니다.

H100모놀리식 1다이, 800억

→

B200듀얼다이 2다이, 2,080억

→

R2004-타일 MCM, 3,360억

R200 Vera Rubin(2026 H2)에서는 4-타일 MCM으로 전면 전환합니다. 2 컴퓨팅 다이(TSMC N3P) + 2 I/O 다이로 총 3,360억 트랜지스터, 224 SM, 288GB HBM4, 22 TB/s 대역폭입니다. I/O 다이가 SerDes(NVLink, PCIe)를 담당하고, 컴퓨팅 다이는 연산에 집중합니다.

이 구조는 AMD MI300X/MI455X의 "컴퓨팅 다이 + 전용 IO 다이" 분리 패턴과 구조적으로 유사합니다. AMD가 2019년 Rome에서 도입한 이종 공정 분리를, NVIDIA가 2026년 R200에서야 본격 채택하는 것입니다.

NVIDIA가 칩렛으로 전환해도 AMD 우위가 남는 이유

NVIDIA의 칩렛 경험은 B200(2024)에서 시작했습니다. AMD는 Naples(2017)에서 시작하여 9년간 5세대를 축적했습니다. 칩렛 설계의 핵심 노하우(KGD 테스트, 다이 간 통신 최적화, 수율 관리)는 실리콘 검증과 양산에서만 배울 수 있습니다. 논문이나 시뮬레이션으로는 충분하지 않습니다. 다만 NVIDIA는 10 TB/s NV-HBI 같은 독자 인터커넥트 기술과 $12B+ 연간 R&D 투자로 경험 부족을 빠르게 상쇄하고 있습니다.

4.2 인텔: Ponte Vecchio의 교훈

인텔은 Ponte Vecchio에서 47개+ 타일을 5가지 공정(TSMC 5nm, Intel 7 등)으로 조합하는 야심찬 설계를 시도했습니다. 결과는 출시 지연과 시장 실패였습니다. 설계 복잡성이 폭발했고, 수율 문제가 겹쳤고, Aurora 슈퍼컴퓨터 납기가 지연되었습니다.

레고 비유로 하면, 5가지 다른 재료의 블록 47개를 결합하려고 한 것입니다. 블록 종류가 다양할수록 각 결합부의 호환성 검증이 기하급수적으로 복잡해집니다. "칩렛을 많이 쓴다고 좋은 것이 아니다"는 교훈을 남겼습니다.

Meteor Lake(2023)에서 인텔은 교훈을 반영하여 실용적 접근으로 선회합니다. 4개 타일(CPU/GPU/SoC/IO)을 각각 최적 공정에서 제조하되, 타일 수를 합리적으로 제한했습니다. AMD와의 차이는 인텔은 타일별 기능 특화(더 많은 이종 타일)를, AMD는 동종 칩렛 반복(확장성 중심)을 추구한다는 점입니다.

4.3 3사 칩렛 철학 비교

	AMD	NVIDIA	Intel
칩렛 경험	9년 (2017~)	2년 (2024~)	4년 (2022~)
CPU 칩렛	6세대 (Naples~Venice)	없음	Meteor Lake (1세대)
GPU 칩렛	3세대 (MI250X~MI455X)	2세대 (B200~R200)	Ponte Vecchio (실패)
설계 철학	동종 칩렛 반복 (확장성)	대형 다이 최소 분할 (성능)	이종 타일 특화 (유연성)
인터커넥트	Infinity Fabric (독자)	NV-HBI/NVLink (독자)	EMIB+Foveros (독자)
개방 표준	UCIe 창립 멤버	불참 (NVLink 독점)	UCIe 창립 멤버

각 회사의 레고 전략이 다릅니다. AMD는 같은 블록을 여러 개 조립하는 방식(확장성 우선)입니다. NVIDIA는 가능한 한 큰 블록을 유지하되, 꼭 필요할 때만 쪼개는 방식(성능 우선)입니다. 인텔은 기능별로 특화된 다양한 블록을 조합하는 방식(유연성 우선)입니다. 세 가지 접근 모두 장단점이 있으며, 어느 것이 최적인지는 아직 결론이 나지 않았습니다.

4장 결론: NVIDIA는 레티클 한계 때문에 칩렛으로 전환할 수밖에 없었습니다. B200(듀얼다이)에서 R200(4-타일)으로 빠르게 진화 중입니다. 인텔의 Ponte Vecchio는 "과도한 이종 칩렛"의 위험을 보여줬습니다. 칩렛은 더 이상 AMD만의 전유물이 아닙니다. 경쟁의 축은 "칩렛 여부"에서 "칩렛 품질"로 이동하고 있습니다.

5. 투자 관점: 칩렛 우위의 지속성

칩렛 자체는 더 이상 AMD만의 무기가 아닙니다. NVIDIA도 쓰고, 인텔도 쓰고, Google TPU도 결국 칩렛을 채택할 것입니다. 그렇다면 "칩렛은 AMD의 해자인가?"라는 질문에 대한 답은 무엇일까요?

정확하게 답하면, 칩렛 자체가 해자가 아니라, 칩렛을 9년간 "잘 써온 경험"이 해자입니다. "칩렛을 먼저 했다"는 시간이 지나면 희석됩니다. 그러나 "칩렛을 9년간 잘 써왔다"는 쉽게 복제되지 않습니다.

5.1 AMD의 지속 가능한 칩렛 우위 3가지

Naples(2017)부터 MI455X(2026)까지 CPU 6세대 + GPU 3세대 칩렛을 양산했습니다. KGD 테스트, 다이 간 통신 최적화, 수율 관리는 실리콘 검증에서만 축적됩니다. NVIDIA의 칩렛 경험은 B200(2024)이 시작점으로, 경험 축적에 최소 3~5년이 필요합니다.

5세대에 걸쳐 CCX 내부에서 랙 스케일까지 확장했습니다. 경쟁사가 구조를 모방해도 인터커넥트 최적화 경험은 단기간에 따라잡기 어렵습니다. AMD는 UALink 컨소시엄 보드 의장으로, xGMI 프로토콜이 UALink의 기술적 기반입니다.

I/O 다이를 N6(6nm)로 제조하여 3nm/2nm 최첨단 노드 용량을 컴퓨팅 다이에 집중합니다. TSMC 용량 병목을 완화하는 구조적 전략입니다. NVIDIA 모놀리식(H100)은 전체 다이가 N4를 소비했습니다.

UALink: 개방형 인터커넥트 표준의 주도

AMD의 Infinity Fabric 기술은 단순히 자사 칩을 연결하는 것에 그치지 않습니다. AMD는 UALink(Ultra Accelerator Link) 컨소시엄의 보드 의장입니다. AMD의 xGMI 프로토콜이 UALink의 기술적 기반이며, 최대 1,024개 GPU를 연결하는 개방형 인터커넥트 표준을 주도하고 있습니다.

이것은 NVIDIA의 폐쇄형 NVLink 생태계와 대조됩니다. NVIDIA는 UCIe에도 불참하고, NVLink/NVSwitch 독자 생태계를 유지합니다. 하이퍼스케일러(Meta, Google, Microsoft)가 특정 벤더에 대한 의존도를 줄이려 하는 추세에서, AMD의 개방형 전략은 장기적으로 시장 접근성을 확대할 수 있는 구조입니다.

5.2 칩렛 우위가 희석되는 3가지 조건

칩렛 우위는 영구적이지 않습니다. 투자자로서 어떤 조건에서 AMD의 선점 효과가 약해지는지 아는 것이 중요합니다.

첫 번째, NVIDIA의 칩렛 학습 곡선 가속입니다. R200(4-타일)부터 NVIDIA도 본격적 칩렛 경험을 축적합니다. NVIDIA의 자원(R&D $12B+/년)과 TSMC 최우선 고객 지위를 고려하면, 3~5년 내 칩렛 설계 성숙도가 AMD와 수렴할 가능성이 있습니다.

두 번째, UCIe 표준화의 보편화입니다. 개방형 칩렛 인터커넥트가 보편화되면, 인터커넥트 자체가 차별화 요소에서 탈락합니다. 다만 NVIDIA는 UCIe에 불참하고 독자 NVLink 생태계를 유지하므로, 이 시나리오는 NVIDIA를 제외한 나머지 업체들 사이에서 적용됩니다.

세 번째, 커스텀 ASIC의 부상입니다. Google TPU, Amazon Trainium, Broadcom/Marvell 커스텀 ASIC이 칩렛을 채택하면, "범용 GPU에서의 칩렛 우위"의 중요성 자체가 감소합니다. 칩렛이 범용 기술이 되는 것입니다.

5.3 UCIe와 개방형 칩렛 생태계

UCIe(Universal Chiplet Interconnect Express)는 "어떤 제조사의 칩렛이든 결합할 수 있는" 레고 호환 규격입니다. AMD는 창립 멤버이고, NVIDIA는 불참합니다. 이 선택의 차이가 장기적으로 생태계 경쟁력을 갈라놓을 수 있습니다.

UCIe 2.0(2024년 8월)은 AI 아키텍처 지원 강화와 보안 메커니즘을 추가했습니다. 창립 멤버에는 AMD, Arm, ASE Group, Google Cloud, Intel, Meta, Microsoft, Qualcomm, Samsung, TSMC가 포함되어 있습니다.

UALink 200G 1.0(2025년 4월)은 AMD xGMI 기반 개방형 GPU 인터커넥트로, 최대 1,024개 GPU 연결과 819.2 TB/s 대역폭을 지원합니다.

투자 관점에서 UCIe/UALink이 보편화되면, 하이퍼스케일러가 AMD GPU를 NVIDIA 없이도 대규모 클러스터에 배치할 수 있게 됩니다. 이것은 AMD의 시장 접근성을 구조적으로 확대합니다.

5.4 TSMC 용량과 칩렛의 관계

칩렛 설계는 TSMC 용량 병목을 완화하는 구조적 효과가 있습니다. MI455X를 예로 들면, 컴퓨팅 다이(2nm)만 최첨단 용량을 사용하고, I/O 다이(N3P)는 상대적으로 여유 있는 N3 용량을 활용합니다.

TSMC Q1 2026 용량 현황을 보면, N2는 램프업 중이고, N3와 N5는 100% 가동 중이며, N7은 가용 상태(8~16주 리드타임)입니다. 심지어 45~90nm 성숙 노드 일부는 CoWoS 인터포저 생산으로 전환되고 있습니다.

AMD의 이점은 명확합니다. 컴퓨팅 다이에만 최첨단 용량을 쓰고, I/O 다이에는 성숙 노드를 활용하므로, 같은 TSMC 최첨단 용량으로 더 많은 칩을 생산할 수 있습니다. NVIDIA는 R200에서야 I/O 다이를 분리하면서 이 이점을 확보하기 시작했습니다.

증권사 DD 사각지대와도 연결됩니다. HSBC가 지적한 "TSMC 3nm 용량 제약"은 칩렛 설계의 이종 공정 활용으로 부분적으로 완화될 수 있습니다.

5.5 칩렛은 "해자"인가, "다리"인가?

해자(moat)로서의 칩렛: 9년 축적 경험 + Infinity Fabric 5세대 + 이종 공정 전략. 쉽게 복제할 수 없습니다. NVIDIA가 B200에서 시작한 칩렛 경험은 AMD의 9년과 비교하면 초기 단계입니다.

다리(bridge)로서의 칩렛: NVIDIA R200이 4-타일로 전환하면 구조적 격차는 축소됩니다. NVIDIA의 $12B+ R&D 투자와 TSMC 최우선 고객 지위를 감안하면, 3~5년 후 칩렛 설계 성숙도가 수렴할 가능성이 있습니다.

결론: 칩렛은 "영구적 해자"가 아니라 "시간을 벌어주는 구조적 우위"입니다. AMD가 이 시간 동안 ROCm 소프트웨어 생태계와 하이퍼스케일러 고객 기반을 확보하느냐가 진짜 관건입니다. 칩렛이 벌어준 시간을 어떻게 쓰느냐가, 장기 투자 판단의 핵심 변수입니다.

5장 결론: AMD의 칩렛 우위는 (1) 9년 설계 경험 (2) Infinity Fabric 5세대 (3) TSMC 성숙 노드 활용에서 나옵니다. NVIDIA의 칩렛 전환으로 구조적 격차는 3~5년 내 축소될 가능성이 있습니다. 칩렛 자체보다, 칩렛이 벌어주는 시간 동안 ROCm 생태계와 고객 기반을 확보하는 것이 AMD의 진짜 과제입니다.

칩렛 혁명의 핵심, 그리고 남은 질문

칩렛은 같은 트랜지스터 수를 최대 41% 저렴하게 구현합니다 (AMD ISCA 2021)
AMD는 2017년 업계 최초 상용화 이후 9년간 CPU 6세대, GPU 3세대 칩렛을 축적했습니다
MI300X는 12다이(8 XCD + 4 IOD), 1,530억 트랜지스터. MI455X는 3,200억, NVIDIA R200은 3,360억입니다
NVIDIA도 B200(듀얼다이)에서 R200(4-타일 MCM)으로 칩렛 전환 중. 구조적 격차는 축소 방향입니다
AMD의 진짜 해자는 칩렛 자체가 아니라 Infinity Fabric 5세대 + 9년 축적 경험 + TSMC 이종 공정 전략입니다
칩렛 우위는 "영구적 해자"가 아니라 "시간을 벌어주는 구조적 우위"입니다. 이 시간을 어떻게 쓰느냐가 관건입니다